Journal of Zhejiang University

Current Issue: <FITEE>

Frontiers of Information Technology & Electronic Engineering (former title: Journal of Zhejiang University SCIENCE C (Computers & Electronics), 2010-2014)

ISSN 2095-9184 (print); ISSN 2095-9230 (online); CN 33-1389/TP; Monthly.

FITEE is an international peer-reviewed journal indexed by SCI-E, Ei Compendex, DBLP, IC, Scopus, JST, CSA, etc. It covers research in Electrical and Electronic Engineering, including Computer Science, Information Sciences, Control, Automation, Telecommunications, and related disciplines.

Impact factor: 0.308 (2011), 0.297 (2012), 0.380 (2013), 0.415 (2014), 0.392 (2015), 0.622 (2016), 0.910 (2017), 1.033 (2018), 1.604 (2019), 2.161 (2020), 2.526 (2021).

Frontiers of Information Technology & Electronic Engineering

ISSN 2095-9184 (print), ISSN 2095-9230 (online), monthly

2021 Vol.22 No.5

Cover:

<723>

Contents:

<687>

<<< CONTENTS >>>

Special Column on Visual Knowledge
(Hosted by Profs. Yunhe PAN & Yueting ZHUANG)

Perspective: Miniaturized five fundamental issues about visual knowledge

Yun-he Pan

DOI: 10.1631/FITEE.2040000 Downloaded: 8892 Clicked: 7501 Cited: 0 Commented: 0(p.615-618) <Full Text>

Chinese summary <63> 视觉知识的五个基本问题

潘云鹤
浙江大学计算机科学与技术学院人工智能研究所，中国杭州市，310027

概要：认知心理学早已指出，人类知识记忆中的重要部分是视觉知识，被用来进行形象思维。因此，基于视觉的人工智能（AI）是AI绕不开的课题，且具有重要意义。本文继《论视觉知识》一文，讨论与之相关的5个基本问题：（1）视觉知识表达；（2）视觉识别；（3）视觉形象思维模拟；（4）视觉知识的学习；（5）多重知识表达。视觉知识的独特优点是具有形象的综合生成能力，时空演化能力和形象显示能力。这些正是字符知识和深度神经网络所缺乏的。AI与计算机辅助设计/图形学/视觉的技术联合将在创造、预测和人机融合等方面对AI新发展提供重要的基础动力。视觉知识和多重知识表达的研究是发展新的视觉智能的关键，也是促进AI 2.0取得重要突破的关键理论与技术。这是一块荒芜、寒湿而肥沃的"北大荒"，也是一块充满希望值得多学科合作勇探的"无人区"。

关键词组：视觉知识表达；视觉识别；视觉形象思维模拟；视觉知识学习；多重知识表达

Perspective: Visual knowledge: an attempt to explore machine creativity

Yueting Zhuang, Siliang Tang

DOI: 10.1631/FITEE.2100116 Downloaded: 8502 Clicked: 6938 Cited: 0 Commented: 0(p.619-624) <Full Text>

Chinese summary <55> 视觉知识：智能创意初探

庄越挺，汤斯亮
浙江大学计算机科学与技术学院人工智能研究所，中国杭州市，310027

概要：长期以来困扰人工智能领域的一个问题是：人工智能是否具有创造力，或者说，算法的推理过程是否可以具有创造性。本文从思维科学的角度探讨人工智能创造力的问题。首先，列举形象思维推理的相关研究；然后，重点介绍一种特殊的视觉知识表示形式，即视觉场景图；最后，详细介绍视觉场景图构造问题与潜在应用。所有证据表明，视觉知识和视觉思维不仅可以改善当前人工智能任务的性能，而且可以用于机器创造力的实践。

关键词组：思维科学；形象思维推理；视觉知识表达；视觉场景图

Visual commonsense reasoning with directional visual connections

Yahong Han, Aming Wu, Linchao Zhu, Yi Yang

DOI: 10.1631/FITEE.2000722 Downloaded: 7221 Clicked: 7303 Cited: 0 Commented: 0(p.625-637) <Full Text> <PPT> 2236

Chinese summary <55> 面向视觉常识推理的有向视觉连接

韩亚洪^1,2，武阿明¹，朱霖潮³，杨易³
¹天津大学智能与计算学部，中国天津市，300350
²天津市机器学习重点实验室，天津大学，中国天津市，300350
³悉尼科技大学计算机学院，澳大利亚悉尼市，2007
摘要：为推动认知层面视觉内容理解的研究，即基于视觉细节的深入理解做出精确推理，视觉常识推理的概念被提出。相比仅需模型正确回答问题的传统视觉问答，视觉常识推理不仅需要模型正确地回答问题，还需给出相应解释。最近关于人类认知的研究指出大脑认知可以看作局部神经元连接的全局动态集成，有助于解决特定的认知任务。受其启发，本文提出有向连接网络。通过使用问题和答案的语义来情景化视觉神经元从而动态重组神经元连接，以及借助方向信息增强推理能力，所提方法能有效实现视觉常识推理。具体地，首先开发一个GraphVLAD模块来捕捉能够充分表达视觉内容相关性的视觉神经元连接。然后提出一个情景化模型来融合视觉和文本表示。最后，基于情景化连接的输出设计有向连接来推断答案及对应解释，其中包含了ReasonVLAD模块。实验结果和可视化分析证明了所提方法的有效性。

关键词组：视觉常识推理；有向连接网络；视觉神经元连接；情景化连接；有向连接

Unsupervised object detection with scene-adaptive concept learning

Shiliang Pu, Wei Zhao, Weijie Chen, Shicai Yang, Di Xie, Yunhe Pan

DOI: 10.1631/FITEE.2000567 Downloaded: 9361 Clicked: 9099 Cited: 0 Commented: 0(p.638-651) <Full Text> <PPT> 2264

Chinese summary <53> 基于场景自适应概念学习的无监督目标检测

浦世亮¹，赵暐¹，陈伟杰¹，杨世才¹，谢迪¹，潘云鹤²
¹海康威视研究院，中国杭州市，310051
²浙江大学计算机科学与技术学院，中国杭州市，310027
摘要：目标检测是机器视觉领域最热门的研究方向之一，在学术界已取得令人瞩目的成果，在工业界也存在许多有价值的应用。然而，主流的检测方法仍有两个缺陷：（1）即使是经过大量数据有效训练的模型，仍然无法很好地泛化到新场景中；（2）模型一旦部署到位，则无法随着不断累积的无标注数据自主进化。为克服上述问题，受视觉知识理论启发，提出一种场景自适应进化的无监督视频目标检测算法，该算法可利用目标群体概念，降低场景变化带来的不利影响。首先通过预训练检测模型从无标注数据中提取大量候选目标，然后对候选目标聚类，构建目标概念的视觉知识字典，其中各个聚类中心代表一种目标原型。其次，通过研究不同目标簇和不同群体目标信息之间的关系，提出基于图的群体信息传播策略以判断目标概念的归属，可有效区分候选目标。最终，利用收集到的伪类标微调预训练模型，实现算法对新场景的自适应。算法的有效性得到多个不同实验的验证，且性能提升显著。

关键词组：视觉知识；无监督视频目标检测；场景自适应学习

Regular Papers

Review Article: Deep 3D reconstruction: methods, data, and challenges

Caixia Liu, Dehui Kong, Shaofan Wang, Zhiyong Wang, Jinghua Li, Baocai Yin

DOI: 10.1631/FITEE.2000068 Downloaded: 11324 Clicked: 8945 Cited: 0 Commented: 0(p.652-672) <Full Text> <PPT> 2402

Chinese summary <46> 深度三维重建：方法、数据和挑战

刘彩霞¹，孔德慧¹，王少帆¹，王志勇²，李敬华¹，尹宝才¹
¹北京工业大学信息学部北京人工智能研究院，多媒体与智能软件技术北京市重点实验室，中国北京市，100124
²悉尼大学计算机科学学院多媒体实验室，澳大利亚新南威尔士州悉尼市，2006

摘要：三维形状重建是计算机视觉、计算机图形学、模式识别和虚拟现实等领域的重要研究课题。现有三维重建方法通常存在两个瓶颈：（1）它们涉及多个人工设计阶段，导致累积误差，且难以自动学习三维形状的语义特征；（2）它们严重依赖图像内容和质量，以及精确校准的摄像机。因此，这些方法的重建精度难以提高。基于深度学习的三维重建方法通过利用深度网络自动学习低质量图像中的三维形状语义特征，克服了这两个瓶颈。然而，这些方法具有多种体系框架，但是至今未有文献对它们作深入分析和比较。本文对基于深度学习的三维重建方法进行全面综述。首先，基于不同深度学习模型框架，将基于深度学习的三维重建方法分为4类：递归神经网络、深自编码器、生成对抗网络和卷积神经网络，并对相应方法作详细分析。其次，详细介绍上述方法常用的4个代表性数据库。再次，对基于深度学习的三维重建方法进行综合比较，包括不同方法在同一数据库、同一方法在不同数据库以及同一方法对于不同视角个数输入的结果比较。最后，讨论了基于深度学习的三维重建方法的发展趋势。

关键词组：深度学习模型；三维重建；循环神经网络；深度自编码器；生成对抗网络；卷积神经网络

Pre-training with asynchronous supervised learning for reinforcement learning based autonomous driving

Yunpeng Wang, Kunxian Zheng, Daxin Tian, Xuting Duan, Jianshan Zhou

DOI: 10.1631/FITEE.1900637 Downloaded: 10276 Clicked: 9675 Cited: 0 Commented: 0(p.673-686) <Full Text> <PPT> 2266

Chinese summary <47> 面向强化学习自动驾驶模型的异步监督学习预训练方法

王云鹏，郑坤贤，田大新，段续庭，周建山
北京航空航天大学交通科学与工程学院，大数据科学与脑机智能高精尖创新中心，中国北京市，100191

摘要：基于人定规则所设计的自动驾驶系统可能会因大规模相互耦合的规则而变得越来越复杂，因此许多研究人员致力于探索基于学习的解决方案。强化学习（reinforcement learning，RL）因其在各种顺序控制问题上的出色表现而被应用于自动驾驶系统设计。然而，基于RL的自动驾驶系统落地应用所面临的主要挑战是其初始性能不佳。强化学习训练需要大量训练数据，然后模型才能达到合理的性能要求，这使得基于强化学习的模型不适用于现实环境，尤其在数据昂贵的情况下。本文为基于强化学习的端到端自动驾驶模型提出一种异步监督学习（asynchronous supervised learning，ASL）方法，以解决在实际环境中训练基于强化学习模型时初始性能差的问题。具体而言，通过在多个驾驶演示数据集上并行且异步执行多个监督学习过程，在异步监督学习预训练阶段引入先验知识。经过预训练后，模型将被部署到真实车辆上进一步开展强化学习训练，以适应实际环境并不断突破性能极限。本文在赛车模拟器TORCS（The Open Racing Car Simulator）上对所提出的预训练方法进行评估，以验证该方法在改善强化学习训练阶段端到端自动驾驶模型的初始性能和收敛速度方面足够可靠。此外，建立一个实车验证系统，以验证所提预训练方法在实车部署中的可行性。仿真结果表明，在有监督的预训练阶段使用一些演示，可以显著提高强化学习训练阶段的初始性能和收敛速度。

关键词组：自主驾驶；自动驾驶车辆；强化学习；监督学习

Dynamic value iteration networks for the planning of rapidly changing UAV swarms

Wei Li, Bowei Yang, Guanghua Song, Xiaohong Jiang

DOI: 10.1631/FITEE.1900712 Downloaded: 7938 Clicked: 9322 Cited: 0 Commented: 0(p.687-696) <Full Text> <PPT> 2467

Chinese summary <45> 用于规划快速变化无人机群的动态值迭代网络

李伟¹，杨波威¹，宋广华¹，姜晓红²
¹浙江大学航空航天学院，中国杭州市，310027
²浙江大学计算机科学与技术学院，中国杭州市，310027

摘要：在无人机自组网（UANET）中，稀疏且高速移动的无人机节点会动态改变无人机自组网的拓扑结构，这可能会导致无人机自组网服务性能问题。为规划快速变化的无人机群，本文提出一种动态值迭代网络（DVIN）模型，该模型利用无人机自组网的连接信息，采用场景式Q学习方法训练，生成状态值传播函数，使无人机节点能够自适应调节至新的物理位置。然后，评估了动态值迭代网络模型的性能，并将其与非支配排序遗传算法NSGA-II和穷举法比较。仿真结果表明，动态值迭代网络模型显著缩短了无人机节点路径规划的决策时间，且平均成功率更高。

关键词组：动态值迭代网络；场景式Q学习；无人机自组网；NSGA-II；路径规划

Latent discriminative representation learning for speaker recognition

Duolin Huang, Qirong Mao, Zhongchen Ma, Zhishen Zheng, Sidheswar Routryar, Elias-Nii-Noi Ocquaye

DOI: 10.1631/FITEE.1900690 Downloaded: 6819 Clicked: 8095 Cited: 0 Commented: 0(p.697-708) <Full Text> <PPT> 2024

Chinese summary <44> 用于说话人识别的潜在可区分性表征学习

黄多林¹，毛启容^1,2，马忠臣¹，郑智燊¹，Sidheswar ROUTRAY¹，Elias-Nii-Noi OCQUAYE¹
¹江苏大学计算机科学与通信工程学院，中国镇江市，212013
²江苏省工业网络空间安全技术重点实验室，中国镇江市，212013

摘要：从语音信号中提取特定说话人的可区分性表征，并将其转换为固定长度的向量是说话人识别和验证系统的关键步骤。提出一种潜在的可区分性表征学习方法，用于说话人识别。我们认为所学表征不仅具有可区分性，还具有相关性。具体来说，引入附加说话人嵌入查找表以探索同一说话人不同语音之间的相关性。此外，引入一个重构约束用于学习线性映射矩阵，使表征更具可区分性。实验结果表明，所提方法在INTERSPEECH2019会议的Fearless Step Challenge挑战赛的Apollo数据集和TIMIT数据集上的性能优于目前最先进方法。

关键词组：说话人识别；潜在可区分性表征学习；说话人嵌入查找表；线性映射矩阵

A partition approach for robust gait recognition based on gait template fusion

Kejun Wang, Liangliang Liu, Xinnan Ding, Kaiqiang Yu, Gang Hu

DOI: 10.1631/FITEE.2000377 Downloaded: 12099 Clicked: 8115 Cited: 0 Commented: 0(p.709-719) <Full Text> <PPT> 2432

Chinese summary <45> 一种基于分块步态模板的鲁棒性步态识别方法

王科俊，刘亮亮，丁欣楠，于凯强，胡钢
哈尔滨工程大学智能科学与工程学院，中国哈尔滨市，150001

摘要：步态识别具备远程识别的巨大潜力，但这种方法很容易受到与身份无关的因素影响，例如穿衣、随身携带的物体和角度。目前基于步态模板的方法可以有效表示步态特征。每一种步态模板都有其优势以及表征不同的显著信息。本文提出一种步态模板融合方法，以避免经典的步态模板（例如步态能量图像方法）的不足--经典步态模板表征的不完整信息对轮廓变化很敏感。所提步态模板融合方法采取分块的方法，以表征行人不同身体部位的不同步态习惯。根据人体各部分特点将融合的步态模板为3个部分（头部、躯干和腿部区域），然后将这3部分的步态模板分别输入卷积神经网络学习从而获得融合的步态特征。采用CASIA-B数据集进行充分的实验评估，并将所提方法与现有方法比较。实验结果表明，所提步态识别方法具有良好准确性和鲁棒性。

关键词组：步态识别；分块算法；步态模板；步态分析；步态能量图；深度卷积神经网络；生物特征识别；模式识别

Event-based H_∞ control for piecewise-affine systems subject to actuator saturation

Yonghao Jiang, Wei Wu, Xuyang Lou, Zhengxian Jiang, Baotong Cui

DOI: 10.1631/FITEE.1900601 Downloaded: 10192 Clicked: 7594 Cited: 0 Commented: 0(p.720-731) <Full Text> <PPT> 2284

Chinese summary <43> 具有执行器饱和的分段仿射系统基于事件的H_∞控制

蒋永豪，吴炜，楼旭阳，江正仙，崔宝同
江南大学轻工过程先进控制教育部重点实验室，中国无锡市，214122

摘要：针对具有执行器饱和的离散时间分段仿射系统，提出一种事件触发控制器设计方法。考虑饱和信息，提出一种新的事件触发策略，该策略能节省通信资源。基于分段李雅普诺夫函数，推导出基于线性矩阵不等式的可行性条件。该条件不仅能保证闭环系统在一定H_∞性能指标下的稳定性，还能减少信号传输数量。最后，利用仿真实例验证该方法的有效性。

关键词组：事件触发控制；分段仿射系统；线性矩阵不等式；执行器饱和；H_∞性能

A descent method for the Dubins traveling salesman problem with neighborhoods

Zheng Chen, Chen-hao Sun, Xue-ming Shao, Wen-jie Zhao

DOI: 10.1631/FITEE.2000041 Downloaded: 7968 Clicked: 7612 Cited: 0 Commented: 0(p.732-740) <Full Text> <PPT> 1973

Chinese summary <48> 一种求解带邻域的Dubins旅行商问题的坐标下降法

陈征，孙晨浩，邵雪明，赵文杰
流体动力与机电系统国家重点实验室，浙江大学航空航天学院，中国杭州市，310027

摘要：由于带邻域的Dubins旅行商问题（Dubins traveling salesman problem with neighborhoods, DTSPN）是无人机执行多目标区域侦察任务需要解决的核心问题，国内外学者对DTSPN问题的快速求解方法进行了广泛研究。本文针对目前已有方法存在计算资源消耗大等情况，设计了一种用于求解DTSPN问题的无梯度坐标下降方法。该方法的核心步骤是将DTSPN问题分解为一系列子问题，对于每个子问题仅需计算从初始点经过一个区域到达目标点的最短路径。通过研究子问题最短路径的几何特征，并将几何特征与二分法相结合，可得到快速计算子问题的鲁棒算法。然后，将子问题计算方法与坐标下降法相结合，构建了能快速求解DTSPN问题的计算方法。最后，为验证所提方法的有效性和快速性，将所提方法与几种传统算法进行仿真对比。

关键词组：Dubins飞行器；坐标下降法；Dubins旅行商问题

A fuzzy integrated congestion-aware routing algorithm for network on chip

Shahrouz Yasrebi, Akram Reza, Mohammad Nikravan, Seena Vazifedan

DOI: 10.1631/FITEE.2000069 Downloaded: 11996 Clicked: 7310 Cited: 0 Commented: 0(p.741-755) <Full Text> <PPT> 2344

Chinese summary <44> 面向片上网络的一种模糊集成拥塞感知路由算法

Shahrouz YASREBI¹，Akram REZA¹，Mohammad NIKRAVAN¹，Seena VAZIFEDAN²
¹伊斯兰阿扎德大学Shahr-e-Qods分校计算机工程系，伊朗德黑兰市
²伊斯兰阿扎德大学科学与研究分校计算机体系结构系，伊朗德黑兰市

摘要：片上网络（NoC）是一种为多处理器芯片提供通信平台的基础设施。共享资源的虫孔交换方法在提升其效率的同时，也可能导致拥塞问题的出现。然而，处理这种拥塞问题需更多能耗，从而增加了耗电量。此外，耗电量的增加会产生更多热量并加剧热量波动，从而削减基础设施寿命，更严重的是降低网络性能。考虑到这些复杂性，提出控制拥塞的方法是一个重大挑战。本文提出一种模糊逻辑拥塞控制路由算法，以提高NoC在面对拥塞时的性能。为避免拥塞，所提算法采用被占用的输入缓冲区、相邻节点的总占用缓冲区以及从瞬时相邻节点到终点最短路径下最大可能的路径多样性作为选择参数。为强化路径选择函数，利用了模糊逻辑算法的不确定性。结果表明，平均时延、功耗和最大时延分别降低14.88%、7.98%和19.39%。此外，该方法提高了14.9%的吞吐量和11.59%的接收数据包总数。为凸显所提算法的重要性，采用转置流量模式进行检验，平均延迟改善15.3%。TMPEG-4（三倍MPEG-4）、QPIP（四倍PIP）和TVOPD（三倍VOPD）的平均延迟分别降低3.8%、36.6%和20.9%。

关键词组：片上网络；路由算法；拥塞控制；模糊逻辑

Passive mode-locked Er-doped fiber laser pulse generation based on titanium disulfide saturable absorber

Xinxin Shang, Linguang Guo, Huanian Zhang, Dengwang Li, Qingyang Yue

DOI: 10.1631/FITEE.2000341 Downloaded: 10572 Clicked: 7959 Cited: 0 Commented: 0(p.756-766) <Full Text> <PPT> 2195

Chinese summary <44> 基于二硫化钛可饱和吸收体的被动锁模掺铒光纤激光器

尚新新^1,3,4，郭林广^1,3,4，张华年²，李登旺^1,3,4，岳庆炀^1,3,4
¹山东师范大学物理与电子科学学院山东省光学与光子器件重点实验室，山东省光场调控及应用中心，中国济南市，250358
²山东理工大学物理与光电工程学院，中国淄博市，255049
³山东师范大学物理与电子科学学院山东省医学物理图像处理技术重点实验室，中国济南市，250358
⁴山东师范大学物理与电子科学学院山东省大健康精准医疗产业技术研究院，中国济南市，250358

摘要：本文采用液相剥离法和旋涂法合成调制深度为5.08%、饱和强度为10.62 MW/cm²的二硫化钛聚乙烯醇薄膜型可饱和吸收体。由于二硫化钛可饱和吸收体具有很强的非线性饱和吸收特性，在掺铒锁模光纤激光器中观测到两种类型的光孤子。当泵浦功率达到67.3mW时，产生重复率为1.716MHz、脉宽为6.57ps的传统锁模脉冲串，其输出光谱中心为1556.98nm、半高全宽为0.466nm，且有明显对称的Kelly边带。通过调整偏振控制器，得到另一种锁模脉冲，在517.2mW泵浦功率下，其最大输出功率为3.92mW，脉冲能量为2.28nJ。实验证明层状二维材料二硫化钛具有优异的非线性饱和吸收特性，在超快光子学领域具有广阔应用前景。

关键词组：光纤激光器；被动锁模；可饱和吸收体；二硫化钛