Journal of Zhejiang University

Current Issue: <FITEE>

Frontiers of Information Technology & Electronic Engineering (former title: Journal of Zhejiang University SCIENCE C (Computers & Electronics), 2010-2014)

ISSN 2095-9184 (print); ISSN 2095-9230 (online); CN 33-1389/TP; Monthly.

FITEE is an international peer-reviewed journal indexed by SCI-E, Ei Compendex, DBLP, IC, Scopus, JST, CSA, etc. It covers research in Electrical and Electronic Engineering, including Computer Science, Information Sciences, Control, Automation, Telecommunications, and related disciplines.

Impact factor: 0.308 (2011), 0.297 (2012), 0.380 (2013), 0.415 (2014), 0.392 (2015), 0.622 (2016), 0.910 (2017), 1.033 (2018), 1.604 (2019), 2.161 (2020), 2.526 (2021).

Frontiers of Information Technology & Electronic Engineering

ISSN 2095-9184 (print), ISSN 2095-9230 (online), monthly

2024 Vol.25 No.1

Cover:

<507>

Contents:

<675>

<<< CONTENTS >>>

Special Issue on Recent Advances in Artificial Intelligence Generated Content (AIGC) (Editor-in-Chief: Junping ZHANG;Editor-in-Chief Assistants:Lingyun SUN,Cong JIN; Guest Editors:Junbin GAO,Xiaobing LI,Jiebo LUO,Zhigeng PAN,Ying TANG,Jingdong WANG)

Editorial:
Recent advances in artificial intelligence generated content

Junping ZHANG, Lingyun SUN, Cong JIN, Junbin GAO, Xiaobing LI, Jiebo LUO, Zhigeng PAN, Ying TANG, Jingdong WANG

DOI: 10.1631/FITEE.2410000 Downloaded: 9222 Clicked: 3877 Cited: 0 Commented: 0(p.1-5) <Full Text>

Chinese summary <27> 人工智能生成内容最新进展

张军平¹，孙凌云²，靳聪³，高俊斌⁴，李小兵⁵，罗杰波⁶，潘志庚⁷，唐瑛⁸，王井东⁹
¹复旦大学计算机科学技术学院，中国上海市，200433
²浙江大学国际设计研究院，中国杭州市，310058
³中国传媒大学信息与通信工程学院，中国北京市，100024
⁴悉尼大学商学院，澳大利亚新南威尔士州，2006
⁵中央音乐学院音乐人工智能与音乐信息科技系，中国北京市，100032
⁶罗切斯特大学计算机科学系，美国纽约州，14627
⁷南京信息工程大学人工智能学院，中国南京市，210044
⁸罗文大学电气与计算机工程系，美国新泽西州格拉斯伯勒，08028
⁹百度，中国北京市，100085
概要：人工智能生成内容（AIGC）是近年来人工智能（AI）领域一个研究热点，它有望取代人类以较低成本高效率执行内容生成工作，如音乐、绘画、多模态内容生成、新闻文章、总结报告、股评摘要，以至元宇宙中的内容生成和数字人。AIGC为未来AI发展和实现提供了一条新的技术路径。
在此背景下，《信息与电子工程前沿（英文）》期刊组织了一期关于AIGC最新进展的特刊。本期特刊关注AIGC理论、算法、应用及相关领域。通过吸引高质量论文，我们希望帮助学术界和工业界研究人员更深入了解AIGC背后的基本理论及其潜在应用，激励更多研究人员加入并推进AIGC领域的研究。因此，我们就以下主题（但不限于）征集论文：（1）AI生成音乐；（2）AI生成绘画；（3）AI对话模型；（4）AI新闻摘要；（5）AI与元宇宙；（6）AI与数字人；（7）AI图像编辑；（8）AI生成短视频；（9）AI生成多媒体内容；（10）ChatGPT相关工作。经严格评审，选出12篇论文，包括1篇评论、1篇观点、3篇综述、6篇研究和1篇通讯。我们将其划分为3个主要部分：ChatGPT、扩散模型、提示学习和多模态。
总体而言，本期特刊涵盖了与AIGC开发和应用相关的广泛研究主题，包括人工智能图像/文本生成、三维内容创建、以用户为中心的图形设计、特定风格的音乐生成，以及与因果表征学习、高阶扩散模型相关的工作。此外，还详细调研了概率扩散模型、提示学习和ChatGPT。
最后，感谢所有作者对本期特刊的支持，特别感谢所有评审人对专刊投稿富有见地的意见和有益建议。

Special Issue on Recent Advances in Artificial Intelligence Generated Content (AIGC)

Comment: ChatGPT: potential, prospects, and limitations

Jie ZHOU, Pei KE, Xipeng QIU, Minlie HUANG, Junping ZHANG

DOI: 10.1631/FITEE.2300089 Downloaded: 5107 Clicked: 3657 Cited: 0 Commented: 0(p.6-11) <Full Text>

Perspective: Parallel intelligent education with ChatGPT

Jiacun WANG, Ying TANG, Ryan HARE, Fei-Yue WANG

DOI: 10.1631/FITEE.2300166 Downloaded: 4112 Clicked: 3238 Cited: 0 Commented: 0(p.12-18) <Full Text>

Review Article: Diffusion models for time-series applications: a survey

Lequan LIN, Zhengkun LI, Ruikun LI, Xuliang LI, Junbin GAO

DOI: 10.1631/FITEE.2300310 Downloaded: 22665 Clicked: 4488 Cited: 0 Commented: 0(p.19-41) <Full Text> <PPT> 1946

Chinese summary <26> 扩散模型在时间序列的应用综述

林乐荃¹，李正坤²，李瑞昆¹，李旭亮¹，高俊斌¹
¹悉尼大学商学院，澳大利亚新南威尔士州，坎伯当，2006
²中泰证券股份有限公司博士后科研工作站，中国济南市，250000
摘要：扩散模型，一类基于深度学习的生成模型家族，在前沿机器学习研究中变得日益重要。扩散模型以在生成与观察数据相似样本方面的卓越性能而著称，如今广泛用于图像、视频和文本合成。近年来，扩散的概念已扩展到时间序列应用领域，涌现出许多强大的模型。鉴于这些模型缺乏系统性总结和讨论，我们提供此综述作为此领域新研究人员的基础资源，并为激发未来研究提供灵感。为更好理解，引入了有关扩散模型基础知识的介绍。除此之外，主要关注基于扩散的时间序列预测、插补和生成方法，并将它们分别在三个独立章节中呈现。还比较了同一应用的不同方法，并强调它们之间的关联（若适用）。最后，总结了扩散方法的共同局限性，并突出强调潜在的未来研究方向。

关键词组：扩散模型，时间序列预测，时间序列插补，去噪扩散概率模型，基于斯坦方法的生成模型，随机微分方程

Review Article: Prompt learning in computer vision: a survey

Yiming LEI, Jingqi LI, Zilong LI, Yuan CAO, Hongming SHAN

DOI: 10.1631/FITEE.2300389 Downloaded: 20770 Clicked: 8738 Cited: 0 Commented: 0(p.42-63) <Full Text> <PPT> 1817

Chinese summary <26> 计算机视觉中的提示学习：综述

雷一鸣¹，李婧琦¹，李子龙¹，曹原¹，单洪明^2,3,4
¹上海市智能信息处理重点实验室，计算机科学技术学院，复旦大学，中国上海市，200438
²类脑智能科学与技术研究院，复旦大学，中国上海市，200433
³脑科学前沿科学中心，复旦大学，中国上海市，200433
⁴上海脑科学与类脑研究中心，中国上海市，201210
摘要：自大型预训练视觉-语言模型（VLM）爆发以来，提示学习已在计算机视觉领域引发广泛关注。基于VLM构建的视觉和语言信息之间的密切关系，提示学习成为许多重要应用领域（如人工智能内容生成（AIGC））中的关键技术。本综述循序渐进且全面地总结了与AIGC相关的视觉提示学习。首先介绍了VLM，它是视觉提示学习的基础。然后，回顾了视觉提示学习方法和提示引导生成模型，并讨论了如何提高将AIGC模型适用于下游特定任务的效率。最后，提供了一些有前景的关于提示学习的研究方向。

关键词组：提示学习；视觉提示微调；图像生成；图像分类；人工智能内容生成（AIGC）

Review Article: Advances and challenges in artificial intelligence text generation

Bing LI, Peng YANG, Yuankang SUN, Zhongjian HU, Meng YI

DOI: 10.1631/FITEE.2300410 Downloaded: 7584 Clicked: 5366 Cited: 0 Commented: 0(p.64-83) <Full Text> <PPT> 1715

Chinese summary <28> 人工智能文本生成的进展与挑战

李冰^1,2，杨鹏^1,2，孙元康^1,2，胡中坚^1,2，易梦^1,2
¹东南大学计算机科学与工程学院，中国南京市，210000
²东南大学计算机网络和信息集成教育部重点实验室，中国南京市，210000
摘要：文本生成是人工智能和自然语言处理的重要研究领域，为人工智能生成内容的快速发展提供了关键技术支撑。该任务基于自然语言处理、机器学习和深度学习等技术，通过训练模型学习语言规则，自动生成符合语法和语义要求的文本。本文对文本生成的主要研究进展进行梳理和系统性总结，对近几年文本生成相关文献进行综合调研，并详细介绍相关技术模型。此外，针对典型文本生成应用系统进行介绍。最后，对人工智能文本生成的挑战和未来研究方向进行分析和展望。得出以下结论，提高生成文本的质量、数量、交互性和适应性有助于从根本上推动人工智能文本生成的发展。

关键词组：人工智能文本生成；自然语言处理；机器学习；深度学习

Six-Writings multimodal processing with pictophonetic coding to enhance Chinese language models

Li WEIGANG, Mayara Chew MARINHO, Denise Leyi LI, Vitor Vasconcelos DE OLIVEIRA

DOI: 10.1631/FITEE.2300384 Downloaded: 7204 Clicked: 4098 Cited: 0 Commented: 0(p.84-105) <Full Text> <PPT> 1515

Chinese summary <26> "六书"多模态处理的形声表征以完善汉语语言模型

LiWEIGANG（李伟钢）¹，Mayara C.MARINHO¹，Denise L. LI²，Vitor V.DE OLIVEIRA¹¹巴西利亚大学计算机科学系（CIC/UnB），巴西巴西利亚市，70910-900
²圣保罗大学经济管理会计审计学院（FEA/USP），巴西圣保罗市，05508-010
摘要：大型语言模型（LLMs）在自然语言处理中已取得显著成就，但在某些场景下，仍然面临解决中文语言处理复杂性的挑战。本文提出"六书"多模态处理（SWMP）框架，旨在考虑汉语形、声、音、像、意、会特性，便于中文语言多模态处理。在SWMP统一的理论框架下，提出"六书"形声编码（SWPC，简称"六书编码"）方法，使得对汉字的表达既能与语法有机结合，又反映汉语灵活应用的特点。文中设计的实验场景包括：（1）实验性建立汉字字根、偏旁（形部）和部件（声部）的图像和"六书"编码（SWPC）的数据库，实现汉语文字和图形的双模态处理；（2）表征若干汉词生成机制，建立提示性问/答模式，进行类比推理。使用SWPC处理中文形态关系数据集（CA8-Mor-10177）的所有问题，精度可达100%。（3）建立"六书"形声编码对词嵌入生成结果微调机制。对中文单词相似度数据集（COS960）中39.37%的问题，相似度计算与人工基础评估结果的平均相对误差低于25%。这些优于目前同类基准精度的结果表明，"六书编码"尝试体现汉语细腻的局部表征和整体关联等特点，可作为对现行汉语语言处理理论和技术的有效补充。

关键词组：汉语语言模型；中文自然语言处理；生成式语言模型；多模态处理；六书

Style-conditioned music generation with Transformer-GANs

Weining WANG, Jiahui LI, Yifan LI, Xiaofen XING

DOI: 10.1631/FITEE.2300359 Downloaded: 4727 Clicked: 4040 Cited: 0 Commented: 0(p.106-120) <Full Text> <PPT> 1302

Chinese summary <26> 基于Transformer-GANs生成有风格调节的音乐

王伟凝，李嘉辉，李意繁，邢晓芬
华南理工大学电子与信息学院，中国广州市，510600
摘要：近年来，研究人员开发了各种算法来生成动听的音乐。然而，在生成过程中有时忽略了风格控制。音乐风格是指音乐作品呈现的具有代表性的特征，是音乐最突出的特质之一。本文提出一种创新的音乐生成算法，该算法能够根据指定的风格从零开始创作完整的音乐作品。算法引入了风格约束的线性生成器和风格鉴别器。风格约束生成器模拟MIDI事件序列，强调风格信息的作用。风格鉴别器应用对抗学习机制并引入两种创新的损失函数，以加强对音乐序列的建模。此外，本文首次建立了一个判别指标，以评估生成音乐与训练数据在音乐风格上的一致性。在现有公共数据集上，实验结果的客观和主观评价都表明我们的算法在音乐制作方面优于现有先进方法。

关键词组：音乐生成；风格调节；Transformer；音乐情感；

Enhancing low-resource cross-lingual summarization from noisy data with fine-grained reinforcement learning

Yuxin HUANG, Huailing GU, Zhengtao YU, Yumeng GAO, Tong PAN, Jialong XU

DOI: 10.1631/FITEE.2300296 Downloaded: 4814 Clicked: 5054 Cited: 0 Commented: 0(p.121-134) <Full Text> <PPT> 1576

Chinese summary <26> 基于细粒度强化学习增强噪声数据的低资源跨语言摘要

黄于欣^1,2，顾怀领^1,2，余正涛^1,2，高玉梦^1,2，潘通^1,2，徐佳龙^1,2
1昆明理工大学信息工程与自动化学院，中国昆明市，650504
2昆明理工大学云南省人工智能重点实验室，中国昆明市，650504
摘要：跨语言摘要是从源语言文档生成目标语言摘要的任务。最近，端到端跨语言摘要模型通过使用大规模、高质量数据集取得令人瞩目的结果，这些数据集通常是通过将单语摘要语料库翻译成跨语言摘要语料库而构建的。然而，由于低资源语言翻译模型性能有限，翻译噪声会严重降低模型性能。提出一种细粒度强化学习方法解决基于噪声数据的低资源跨语言摘要问题。引入源语言摘要作为黄金信号，减轻翻译后噪声目标摘要的影响。具体来说，通过计算源语言摘要和生成目标语言摘要之间的词相关性和词缺失度设计强化奖励，并将其与交叉熵损失相结合优化跨语言摘要模型。为验证所提出模型性能，构建汉语-越南语和越南语-汉语跨语言摘要数据集。实验结果表明，所提出模型在ROUGE分数和BERTScore方面优于其他基线。

关键词组：跨语言摘要；低资源语言；噪声数据；细粒度强化学习；词相关性；词缺失度https://doi.org/10.1631/FITEE.2300296

Controllable image generation based on causal representation learning

Shanshan HUANG, Yuanhao WANG, Zhili GONG, Jun LIAO, Shu WANG, Li LIU

DOI: 10.1631/FITEE.2300303 Downloaded: 6003 Clicked: 4506 Cited: 0 Commented: 0(p.135-148) <Full Text> <PPT> 1323

Chinese summary <26> 基于因果表征学习的可控图像生成

黄珊珊¹，王元浩¹，龚志黎¹，廖军¹，王姝²，刘礼¹
¹重庆大学大数据与软件学院，中国重庆市，401331
²西南大学材料与能源学院，中国重庆市，400715
摘要：人工智能生成内容（AIGC）已成为制作各种形式的大规模内容不可或缺的工具，特别是在图像生成和编辑中发挥重要作用。然而，图像生成和编辑的可解释性和可控性仍然是一个挑战。现有人工智能方法由于忽略图像内部的因果关系，往往难以生成既灵活又可控的图像。为解决这个问题，本文开发了一种新颖的因果可控图像生成方法，它将因果表征学习与双向生成对抗网络相结合。本文方法的关键在于使用因果结构学习模块学习图像属性之间的因果关系，并与图像生成模块中的编码器、生成器和联合鉴别器进行联合优化。基于这种方法，不仅可以学习图像潜在空间中的因果表征，进而实现因果可控的图像编辑，还可以利用因果干预操作生成反事实图像。最后，在真实世界的数据集CelebA上进行大量实验。实验结果证明所提方法的合理性和有效性。

关键词组：图像生成；可控图像编辑；因果结构学习；因果表征学习

Deep3DSketch-im: rapid high-fidelity AI 3D model generation by single freehand sketches

Tianrun CHEN, Runlong CAO, Zejian LI, Ying ZANG, Lingyun SUN

DOI: 10.1631/FITEE.2300314 Downloaded: 13508 Clicked: 4174 Cited: 0 Commented: 0(p.149-159) <Full Text> <PPT> 1513

Chinese summary <26> Deep3DSketch-im：基于人工智能从单个手绘草图快速生成高保真三维模型

陈天润¹，曹润龙³，李泽健²，臧影³，孙凌云¹
¹浙江大学计算机科学与技术学院，中国杭州市，310027
²浙江大学软件学院，中国杭州市，310027
³湖州师范学院信息工程学院，中国湖州市，313000
摘要：人工智能生成内容（AIGC）在语言和图像领域的崛起值得注意，但由于其复杂性和缺乏训练数据，基于人工智能生成三维模型仍未被充分探索。通过计算机辅助设计（CAD）创建三维内容的传统方法需大量人力和专业知识，这对于新手用户来说具有挑战性。为解决此问题，提出一种基于草图的三维建模方法，名为Deep3DSketch-im，它利用单个手绘草图进行建模。由于草图的稀疏性和模棱两可性，这是一项具有挑战性的任务。Deep3DSketch-im使用一种称作"有符号距离场（SDF）"的新型数据表示，通过将隐式连续场整合至从草图到三维模型的过程，以及一个特别设计的可以捕捉点和局部特征的神经网络，改进从草图到三维模型的过程。进行了大量实验证明该方法的有效性，在合成数据集和真实数据集上均取得更优的性能。此外，用户研究报告显示，用户对Deep3DSketch-im生成的结果更加满意。我们相信，Deep3DSketch-im有潜力通过为新手用户提供直观易用的解决方案来彻底改变三维建模的过程。

关键词组：内容创作；草图；三维建模；三维重建；从X到形状；人工智能

TendiffPure: a convolutional tensor-train denoising diffusion model for purification

Mingyuan BAI, Derun ZHOU, Qibin ZHAO

DOI: 10.1631/FITEE.2300392 Downloaded: 3798 Clicked: 3874 Cited: 0 Commented: 0(p.160-169) <Full Text> <PPT> 1866

Chinese summary <28> TendiffPure：一种用于纯化的卷积张量链去噪扩散模型

白名瑗¹，周德润^1,2，赵启斌¹
¹理化学研究所革新知能统合研究项目组，日本东京市，1030027
²东京工业大学環境社会理工学院，日本东京市，1528550
摘要：扩散模型是有效的纯化方法，在现有分类器执行分类任务之前，使用生成方法去除噪声或对抗性攻击。然而，扩散模型的效率仍然是一个问题，现有的解决方案基于知识蒸馏，由于生成步骤较少，可能会危及生成质量。因此，我们提出TendiffPure，一种用于纯化的张量化和压缩的扩散模型。与知识蒸馏方法不同，我们直接使用张量链分解压缩扩散模型的U-Net骨干网络，减少参数数量，并在多维数据（如图像）中捕获更多的空间信息。空间复杂度从O(N²)减少到O(NR²)，其中R≤4为张量序列秩，N为通道数。实验结果表明，基于CIFAR-10、Fashion-MNIST和MNIST数据集，TendiffPure可以更有效地生成高质量的净化结果，并在两种噪声和一次对抗性攻击下优于基线纯化方法。

关键词组：扩散模型；张量分解；图像去噪

Correspondence: Multistage guidance on the diffusion model inspired by human artists’ creative thinking

Wang QI, Huanghuang DENG, Taihao LI

DOI: 10.1631/FITEE.2300313 Downloaded: 3715 Clicked: 3463 Cited: 0 Commented: 0(p.170-178) <Full Text> <PPT> 1222

Chinese summary <26> 受艺术家创造性思维启发的扩散模型多阶段引导

齐旺¹，邓晃煌²，李太豪¹
¹之江实验室跨媒体智能研究中心，中国杭州市，311500
²浙江大学计算机科学与技术学院，中国杭州市，310027
摘要：目前文本生成图像的研究已显示出与普通画家类似的水平，但与艺术家绘画水平相比仍有很大改进空间；艺术家水平的绘画通常将多个意象的特征融合到一个意象中，以表示多层次语义信息。在预实验中，我们证实了这一点，并咨询了3个具有不同艺术欣赏能力的群体的意见，以确定画家和艺术家之间绘画水平的区别。之后，利用这些观点帮助人工智能绘画系统从普通画家水平的图像生成改进为艺术家水平的图像生成。具体来说，提出一种无需任何进一步预训练的、基于文本的多阶段引导方法，帮助扩散模型在生成的图像中向多层次语义表示迈进。实验中的机器和人工评估都验证了所提方法的有效性。此外，与之前单阶段引导方法不同，该方法能够通过控制不同阶段之间的指导步数来控制各个意象特征在绘画中的表现程度。

关键词组：文本生成图像；扩散模型；多层次语义；多阶段引导