AI研究论文每日精选

每日精选AI研究论文及翻译

VideoGrain：时空注意力调制实现多粒度视频编辑
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Feb 24, 2025

Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang

795

近期，扩散模型的显著进展极大地提升了视频生成与编辑的能力。然而，多粒度视频编辑——涵盖类别级、实例级及部分级修改——仍是一项艰巨挑战。多粒度编辑中的主要难点包括文本到区域控制的语义错位以及扩散模型内部特征的耦合问题。为解决这些难题，我们提出了VideoGrain，一种零样本方法，通过调控时空（交叉与自）注意力机制，实现对视频内容的精细控制。我们通过增强每个局部提示词在交叉注意力中对其对应空间解耦区域的关注，同时减少与无关区域的交互，从而优化了文本到区域的控制。此外，我们通过提升自注意力中的区域内感知并降低区域间干扰，改进了特征分离。大量实验证明，我们的方法在现实场景中达到了最先进的性能。我们的代码、数据及演示可在https://knightyxp.github.io/VideoGrain_project_page/获取。

长上下文大语言模型如是说
Thus Spake Long-Context Large Language Model

Feb 24, 2025

Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu

736

长上下文是自然语言处理（NLP）中的一个重要课题，贯穿了NLP架构的发展历程，并为大语言模型（LLMs）提供了巨大的机遇，赋予其类似人类的终身学习潜力。然而，追求长上下文的过程中伴随着诸多挑战。尽管如此，长上下文仍然是LLMs的核心竞争优势。过去两年间，LLMs的上下文长度已实现突破性扩展，达到数百万个标记。此外，长上下文LLMs的研究已从长度外推拓展至对架构、基础设施、训练及评估技术的全面关注。受交响诗《查拉图斯特拉如是说》的启发，我们将LLM扩展上下文的旅程与人类试图超越其有限性的尝试相类比。在本综述中，我们将阐述LLM如何在延长上下文的巨大需求与接受其终究有限的事实之间挣扎。为此，我们从架构、基础设施、训练和评估四个视角，全面描绘了长上下文LLMs的生命周期，展示了长上下文技术的全貌。在综述的最后，我们将提出当前长上下文LLMs面临的十大未解问题。我们希望本综述能作为长上下文LLMs研究的系统性导引。

一日单GPU训练：语音语言模型的快速构建
Slamming: Training a Speech Language Model on One GPU in a Day

Feb 19, 2025

Gallil Maimon, Avishai Elmakies, Yossi Adi

702

我们推出Slam，一种在单块学术级GPU上24小时内训练高质量语音语言模型（SLMs）的方案。通过实证分析模型初始化与架构、合成训练数据、基于合成数据的偏好优化及对其他组件的微调，我们实现了这一目标。实验表明，该训练方案在增加计算资源时同样表现出色，能以更低的计算成本取得与顶尖SLMs相当的结果。我们期望这些洞见能使SLM训练与研究更加普及。在SLM扩展定律的背景下，我们的成果远超计算最优性能的预测，为SLM的可行性描绘了一幅乐观的图景。代码、数据、模型及示例详见：https://pages.cs.huji.ac.il/adiyoss-lab/slamming。

DICEPTION：面向视觉感知任务的通用扩散模型
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Feb 24, 2025

Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen

533

我们的核心目标是构建一个优秀的通用感知模型，在计算资源和训练数据受限的条件下，能够处理多种任务。为此，我们采用了基于数十亿图像预训练的文本到图像扩散模型。通过全面的评估指标，我们证明了DICEPTION在处理多种感知任务时表现出色，其性能与当前最先进的模型相当。仅使用SAM-vit-h模型0.06%的数据（例如，60万与10亿像素级标注图像对比），我们便取得了与之相当的结果。受Wang等人启发，DICEPTION采用色彩编码来表示各类感知任务的输出；我们展示了对不同实例随机分配颜色的策略，在实体分割和语义分割中均极为有效。将多种感知任务统一为条件图像生成，使我们能够充分利用预训练的文本到图像模型。因此，与从头训练的传统模型相比，DICEPTION能以低几个数量级的成本高效训练。在将模型适配到其他任务时，仅需对少至50张图像和1%的参数进行微调。DICEPTION为视觉通用模型提供了宝贵洞见和更具前景的解决方案。

Audio-FLAN：初步发布版
Audio-FLAN: A Preliminary Release

Feb 23, 2025

Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue

372

近期音频标记化技术的显著进步极大地促进了音频能力与大型语言模型（LLMs）的融合。然而，音频理解与生成常被视为独立任务，这阻碍了真正统一的音频-语言模型的发展。尽管指令微调在提升文本与视觉领域的泛化能力和零样本学习方面已展现出显著成效，但其在音频领域的应用仍鲜有探索。一个主要障碍是缺乏整合音频理解与生成的综合性数据集。为此，我们推出了Audio-FLAN，这是一个大规模指令微调数据集，涵盖了语音、音乐及声音三大领域的80种多样化任务，实例数量超过一亿。Audio-FLAN为零样本方式下跨广泛音频领域无缝处理理解（如转录、理解）与生成（如语音、音乐、声音）任务的统一音频-语言模型奠定了基础。Audio-FLAN数据集已在HuggingFace和GitHub上发布，并将持续更新。

让LoRA再创辉煌：通过自适应奇异值与专家混合优化对齐提升LoRA性能
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Feb 24, 2025

Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng

314

尽管低秩适应（LoRA）为大型语言模型（LLMs）提供了参数高效的微调方法，但其性能往往不及全量微调（Full FT）。现有方法通过初始化静态奇异值分解（SVD）子集来优化LoRA，导致对预训练知识的利用不够充分。另一条提升LoRA的路径是引入混合专家（MoE）架构。然而，权重不对齐和复杂的梯度动态使得在LoRA MoE架构之前采用SVD颇具挑战。为解决这些问题，我们提出了Great LoRA混合专家（GOAT）框架，该框架（1）利用SVD结构的MoE自适应整合相关先验知识，（2）通过推导理论缩放因子，使优化与全量微调MoE对齐。我们证明，在不改变架构或训练算法的情况下，适当的缩放能显著提升LoRA MoE的效率和性能。在涵盖自然语言理解、常识推理、图像分类和自然语言生成的25个数据集上的实验表明，GOAT实现了最先进的性能，缩小了与Full FT的差距。

GCC：基于色彩校验卡扩散的生成式色彩恒常性
GCC: Generative Color Constancy via Diffusing a Color Checker

Feb 24, 2025

Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu

282

色彩恒常性方法往往难以在不同相机传感器之间实现泛化，这主要是由于光谱敏感度的差异所致。我们提出了GCC方法，该方法利用扩散模型将色卡修复到图像中以进行光照估计。我们的核心创新包括：(1) 一种单步确定性推理方法，能够修复反映场景光照的色卡；(2) 一种拉普拉斯分解技术，在保持色卡结构的同时允许光照依赖的颜色适应；(3) 一种基于掩码的数据增强策略，用于处理不精确的色卡标注。GCC在跨相机场景中展现出卓越的鲁棒性，在双向评估中实现了5.15°和4.32°的最差25%误差率，达到了当前最佳水平。这些结果凸显了我们的方法在不同相机特性下的稳定性和泛化能力，且无需传感器特定的训练，使其成为现实应用中的多功能解决方案。

CodeCriticBench：面向大型语言模型的综合性代码评审基准
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Feb 23, 2025

Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang

273

大型语言模型（LLMs）的批判能力对于其推理能力至关重要，能够提供必要的建议（例如，详细分析和建设性反馈）。因此，如何评估LLMs的批判能力已引起广泛关注，并已提出多个批判基准。然而，现有的批判基准通常存在以下局限性：（1）主要关注通用领域的多样化推理任务，对代码任务的评估不足（例如，仅涵盖代码生成任务），且查询难度相对较低（例如，CriticBench的代码查询来自Humaneval和MBPP）。（2）缺乏从不同维度进行的全面评估。为解决这些局限性，我们引入了一个名为CodeCriticBench的综合性代码批判基准。具体而言，我们的CodeCriticBench包含两种主流代码任务（即代码生成和代码问答），并涵盖不同难度级别。此外，评估协议包括针对不同特性的基础批判评估和高级批判评估，其中高级设置中设计了细粒度的评估清单。最后，我们对现有LLMs进行了广泛的实验，结果证明了CodeCriticBench的有效性。

数学推理中测试时缩放的语言泛化能力
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

Feb 24, 2025

Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne

262

预训练计算规模的扩大已被证明对实现多语言能力有效，但测试时扩展是否同样有效？在本研究中，我们引入了MCLM，一个包含55种语言竞赛级数学题目的多语言数学基准。我们测试了三种测试时扩展方法——结果奖励建模（ORM）、过程奖励建模（ORM）和预算强制（BF）——在Qwen2.5-1.5B Math和我们为扩展推理训练的多语言大模型MR1-1.5B上的表现。实验表明，使用Qwen2.5-1.5B Math结合ORM在MCLM上获得35.8分，而MR1-1.5B结合BF则达到35.2分。尽管“思考型大模型”近期备受关注，但我们发现，在相似的推理计算量（FLOPs）限制下，其性能与传统扩展方法如最佳N选一相当。此外，虽然BF在英语AIME上带来了20分的提升，但在其他语言上平均仅提高1.94分——这一趋势在我们研究的其他测试时扩展方法中同样存在——凸显出测试时扩展在多语言任务上的泛化效果可能有限。为促进进一步研究，我们公开了MCLM、MR1-1.5B及评估结果。

RIFLEx：视频扩散Transformer中长度外推的免费午餐
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Feb 21, 2025

Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu

203

近期视频生成技术的进步使得模型能够合成高质量、长达一分钟的视频。然而，生成更长且时间连贯的视频仍是一大挑战，现有的长度外推方法往往导致时间上的重复或运动减速。本研究系统分析了位置编码中频率成分的作用，并识别出一个主要控制外推行为的内在频率。基于这一发现，我们提出了RIFLEx，一种简洁而有效的方法，通过降低内在频率来抑制重复，同时保持运动一致性，且无需任何额外修改。RIFLEx提供了一种真正的“免费午餐”——在无需训练的情况下，于最先进的视频扩散变换器上实现了高质量的2倍外推。此外，通过少量微调，无需长视频，它还能提升质量并实现3倍外推。项目页面及代码详见：https://riflex-video.github.io/。

Stable-SPAM：如何在4比特精度下比16比特Adam更稳定地进行训练
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam

Feb 24, 2025

Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu

182

本文全面评估了近期提出的几种用于4位训练的优化器，发现低比特精度会放大对学习率的敏感性，并常常导致梯度范数不稳定，从而在较高学习率下引发发散。其中，SPAM作为一种新型优化器，具备动量重置和尖峰感知梯度裁剪特性，在不同比特级别上表现最佳，但难以稳定梯度范数，需要仔细调整学习率。为克服这些局限，我们提出了Stable-SPAM，它融合了增强的梯度归一化与裁剪技术。具体而言，Stable-SPAM（1）通过追踪历史最大值自适应更新尖峰梯度的裁剪阈值；（2）基于历史l_2范数统计对整个梯度矩阵进行归一化；（3）继承SPAM的动量重置机制，定期重置Adam的一阶和二阶矩，以减轻尖峰梯度的累积。大量实验表明，Stable-SPAM在4位大语言模型训练中有效稳定了梯度范数，相比Adam和SPAM展现出更优的性能。特别地，使用Stable-SPAM训练的4位LLaMA-1B模型，在困惑度上比采用Adam训练的BF16 LLaMA-1B模型高出最多2点。此外，当两者均在4位下训练时，Stable-SPAM达到与Adam相同的损失，而所需训练步数仅为后者的一半。代码已发布于https://github.com/TianjinYellow/StableSPAM.git。

多模态不一致性推理（MMIR）：多模态推理模型的新基准
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

Feb 22, 2025

Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang

182

现有的多模态大语言模型（MLLMs）主要是在视觉-文本一致的输入上进行训练和测试，这留下了一个悬而未决的问题：它们能否处理现实世界中布局丰富内容中的不一致性。为填补这一空白，我们提出了多模态不一致性推理（MMIR）基准，以评估MLLMs在检测和推理网页、演示文稿和海报等人工制品中语义不匹配的能力。MMIR包含534个具有挑战性的样本，每个样本在五个推理密集的类别中注入了合成错误：事实矛盾、身份误认、上下文不匹配、数量差异以及时间/空间不连贯。我们评估了六种最先进的MLLMs，结果表明，具备专门多模态推理能力的模型，如o1，显著优于其他模型，而开源模型在面对不一致性错误时尤为脆弱。详细的错误分析进一步显示，模型在检测局限于单一模态（尤其是文本）的不一致性方面表现出色，但在处理跨模态冲突和复杂布局时则显得力不从心。探索性实验揭示，单一模态提示，包括思维链（CoT）和标记集（SoM）方法，带来的提升有限，这暴露了跨模态推理中的一个关键瓶颈。我们的研究结果强调了发展先进多模态推理的必要性，并为未来关于多模态不一致性的研究指明了方向。

超越发布：生成式AI系统的访问考量
Beyond Release: Access Considerations for Generative AI Systems

Feb 23, 2025

Irene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask

164

生成式AI的发布决策决定了系统组件是否对外开放，但发布本身并未解决许多其他影响用户及利益相关方与系统互动的要素。在发布之外，系统组件的可访问性直接关系到潜在风险与收益。这里的“访问”指的是从资源、技术和社会层面满足实际需求，以便以某种方式利用已发布的组件。我们将访问性分解为三个维度：资源配置、技术可用性和实用性。在每个类别中，针对每个系统组件的一系列变量阐明了其中的权衡。例如，资源配置要求具备访问计算基础设施的能力以提供模型权重。我们还对比了四种高性能语言模型的可访问性，其中两种为开放权重，两种为封闭权重，展示了基于访问变量的相似考量因素。访问变量为扩大或提升用户访问能力奠定了基础；我们探讨了访问的规模以及规模如何影响风险管理和干预的能力。这一框架更全面地涵盖了系统发布的全貌及风险与收益的权衡，为系统发布决策、研究及政策制定提供了更深入的洞见。

Mobile-Agent-V：通过视频引导的多智能体协作学习移动设备操作
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

Feb 24, 2025

Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang

132

移动设备使用的快速增长对无缝任务管理提出了更高的自动化要求。然而，许多AI驱动框架因操作知识不足而难以应对。手动编写的知识虽有所帮助，但费时且效率低下。为解决这些挑战，我们推出了Mobile-Agent-V框架，该框架利用视频指导为移动自动化提供丰富且成本效益高的操作知识。Mobile-Agent-V通过视频输入增强任务执行能力，无需专门的采样或预处理。该框架整合了滑动窗口策略，并引入了视频代理和深度反思代理，确保操作与用户指令一致。通过这一创新方法，用户可在指导下记录任务过程，使系统能够自主高效地学习并执行任务。实验结果表明，Mobile-Agent-V相较于现有框架实现了30%的性能提升。

反思式规划：面向多阶段长时程机器人操作的视觉-语言模型
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Feb 23, 2025

Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo

132

解决复杂的长期机器人操作问题需要具备高级规划能力、对物理世界的深刻理解以及能够灵活选择适当运动技能的能力。基于互联网数据预训练的视觉语言模型（VLMs）原则上可为应对此类问题提供框架。然而，现有VLMs在机器人操作所需的精细物理理解及应对错误累积的长时推理能力方面均显不足。本文提出了一种新颖的测试时计算框架，旨在增强VLMs在多阶段操作任务中的物理推理能力。该框架的核心在于通过“反思”机制迭代优化预训练的VLM——利用生成模型预测未来世界状态，以此指导动作选择，并关键性地对潜在次优决策进行反思以精炼其推理过程。实验结果表明，我们的方法显著优于多个当前最先进的商用VLMs以及其他后训练方法，如蒙特卡洛树搜索（MCTS）。相关视频可访问https://reflect-vlm.github.io获取。

X-Dancer：从富有表现力的音乐到人类舞蹈视频的生成
X-Dancer: Expressive Music to Human Dance Video Generation

Feb 24, 2025

Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo

123

我们推出X-Dancer，一种创新的零样本音乐驱动图像动画流程，能够从单一静态图像生成多样化且长距离逼真的人类舞蹈视频。其核心在于引入了一个统一的Transformer-扩散框架，该框架包含一个自回归Transformer模型，用于合成与音乐同步的二维身体、头部及手部姿态的扩展令牌序列，进而指导扩散模型生成连贯且真实的舞蹈视频帧。与主要生成三维人体运动的传统方法不同，X-Dancer通过建模广泛的二维舞蹈动作，利用易于获取的单目视频捕捉其与音乐节拍的微妙对齐，有效应对了数据限制并提升了可扩展性。为此，我们首先从带有关键点置信度的二维人体姿态标签构建了空间组合式令牌表示，编码了大幅度的身体动作（如上下身）及精细动作（如头部和手部）。随后，我们设计了一个音乐到动作的Transformer模型，自回归地生成与音乐对齐的舞蹈姿态令牌序列，同时全局关注音乐风格及先前的运动上下文。最后，我们利用扩散模型骨干，通过AdaIN技术将参考图像与这些合成的姿态令牌动画化，形成了一个完全可微分的端到端框架。实验结果表明，X-Dancer能够生成既多样又具特色的舞蹈视频，在多样性、表现力及真实感方面大幅超越现有最先进方法。代码与模型将供研究用途开放。

基于场景的说服性语言生成在自动化营销中的应用
Grounded Persuasive Language Generation for Automated Marketing

Feb 24, 2025

Jibang Wu, Chenghao Yang, Simon Mahns, Chaoqi Wang, Hao Zhu, Fei Fang, Haifeng Xu

123

本文提出了一种基于大语言模型（LLMs）的智能框架，旨在自动生成具有说服力且基于事实的营销内容，并以房地产房源描述作为核心应用领域。该方法旨在使生成的内容既符合用户偏好，又能突出有用的实际属性。该智能体包含三个关键模块：（1）基础模块，模拟专家行为以预测市场关注的特征；（2）个性化模块，确保内容与用户偏好相匹配；（3）营销模块，保证事实准确性并融入本地化特色。我们在房地产营销领域进行了系统性的人体实验，以潜在购房者为焦点小组。结果表明，相较于人类专家撰写的描述，采用本方法生成的营销描述明显更受青睐。我们的研究发现，这一基于LLM的智能框架在实现大规模定向营销自动化的同时，能够确保仅使用事实进行负责任的生成，展现出广阔的应用前景。

预测Hugging Face平台上开源AI模型的增长趋势
Forecasting Open-Weight AI Model Growth on Hugging Face

Feb 21, 2025

Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao

103

随着开源权重AI领域的持续扩展——包括模型开发、重大投资及用户兴趣的激增——预测哪些模型将最终推动创新并塑造AI生态系统变得愈发重要。借鉴科学文献中的引用动态，我们提出了一种量化开源权重模型影响力演变的框架。具体而言，我们采用了Wang等人为科学引用设计的模型，通过三个关键参数——即时性、持久性和相对适应性——来追踪一个开源权重模型的微调模型累计数量。我们的研究结果表明，这种引用式方法能有效捕捉开源权重模型采纳的多样化轨迹，大多数模型拟合良好，而异常值则揭示了独特的使用模式或使用量的突然跃升。

TAG：一种去中心化的多智能体分层强化学习框架
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

Feb 21, 2025

Giuseppe Paolo, Abdelhakim Benechehab, Hamza Cherkaoui, Albert Thomas, Balázs Kégl

层次化组织是生物系统和人类社会的基石，然而人工智能系统往往依赖单一架构，这限制了其适应性和可扩展性。当前的层次化强化学习（HRL）方法通常将层次限制为两级或需要集中式训练，从而限制了其实际应用。我们提出了TAME智能体框架（TAG），这是一个构建完全去中心化层次化多智能体系统的框架。TAG通过新颖的LevelEnv概念，将每一层次抽象为上层智能体的环境，从而支持任意深度的层次结构。这种方法在保持松散耦合的同时，标准化了层级间的信息流动，使得不同类型智能体能够无缝集成。我们通过实现跨多个层次结合不同RL智能体的层次化架构，证明了TAG的有效性，并在标准基准测试中超越了传统多智能体RL基线。我们的结果表明，去中心化的层次化组织不仅提升了学习速度，还提高了最终性能，使TAG成为可扩展多智能体系统的一个有前景的方向。

跨朝代时序推理与对齐能力基准测试
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

Feb 24, 2025

Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou

时序推理是人类认知的基础，对众多现实应用至关重要。尽管大型语言模型（LLMs）在时序推理方面展现了令人瞩目的能力，现有基准测试主要依赖规则构建，缺乏情境深度，且涉及的时序实体范围有限。为克服这些局限，我们推出了“中国时间推理”（CTM）基准，旨在评估LLMs在中国朝代编年史广泛背景下的时序推理能力。CTM强调跨实体关系、成对时序对齐以及情境化与文化根基的推理，提供了全面的评估框架。大量实验结果揭示了CTM带来的挑战，并指出了潜在的改进方向。

归纳基准：大语言模型在最简单复杂度类别中的失败
InductionBench: LLMs Fail in the Simplest Complexity Class

Feb 20, 2025

Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang

大型语言模型（LLMs）在推理能力上已展现出显著提升，诸如o1和o3等模型已全面或部分解决了众多现有基准测试。然而，这些基准测试大多侧重于演绎推理，包括数学与编程任务，其中诸如数学公理或编程语法等规则被明确定义，LLMs可据此规划并应用这些规则以得出解答。相比之下，归纳推理——即从观察数据中推断潜在规则——则较少被探索。此类归纳过程是科学发现的核心，它使研究人员能够从经验观察中提炼出普遍原理。为了评估LLMs是否具备这一能力，我们引入了InductionBench，一个旨在评估LLMs归纳推理能力的新基准。我们的实验结果表明，即便是当前最先进的模型，在函数次正则层级中最简单的复杂度类别上也难以掌握，这突显了当前LLMs在归纳推理能力上的显著不足。代码与数据可访问https://github.com/Wenyueh/inductive_reasoning_benchmark。

探究量化方法对大型语言模型安全性与可靠性的影响
Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

Feb 18, 2025

Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev

大型语言模型（LLMs）已成为应对现代挑战和实现实际应用的强大工具。然而，其高昂的计算成本仍是广泛采用的主要障碍。量化技术作为一种有前景的方法，旨在降低使用门槛并支持低资源设备的部署。尽管取得了这些进展，量化模型的安全性和可信度仍未得到充分探索，因为以往的研究往往忽视了当代架构，并依赖于过于简化的基准测试和评估方法。为填补这一空白，我们引入了OpenSafetyMini，一个新颖的开放式安全数据集，旨在更好地区分模型性能。我们使用四个基准测试（包括人工评估）对LLaMA和Mistral模型上的四种最先进的量化技术进行了评估。我们的研究结果表明，在4位精度下，最优的量化方法因模型而异，而在2位精度下，向量量化技术在安全性和可信度方面表现最佳，为未来研究奠定了基础。

Pandora3D：一个面向高质量三维形状与纹理生成的综合框架
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

Feb 20, 2025

Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji

本报告提出了一套全面的框架，用于从多样化的输入提示（包括单张图像、多视角图像及文本描述）中生成高质量的3D形状与纹理。该框架由3D形状生成和纹理生成两部分构成。(1) 3D形状生成流程采用变分自编码器（VAE）将隐式3D几何编码至潜在空间，并利用扩散网络根据输入提示生成潜在表示，同时通过改进增强了模型容量。此外，还探索了一种替代性的艺术家创建网格（AM）生成方法，在简单几何体上展现出良好效果。(2) 纹理生成则是一个多阶段过程，始于正面图像的生成，随后是多视角图像生成、RGB到PBR纹理转换，以及高分辨率多视角纹理的精细化处理。每一阶段均嵌入了一致性调度器，在推理过程中强制执行多视角纹理间的像素级一致性，确保无缝融合。该流程展示了有效处理多种输入格式的能力，通过先进的神经网络架构与创新方法，产出高质量的3D内容。报告详细阐述了系统架构、实验结果，以及未来改进与扩展框架的潜在方向。源代码及预训练权重已发布于：https://github.com/Tencent/Tencent-XR-3DGen。

社区笔记能否取代专业事实核查员？
Can Community Notes Replace Professional Fact-Checkers?

Feb 19, 2025

Nadav Borenstein, Greta Warren, Desmond Elliott, Isabelle Augenstein

为应对社交媒体上虚假信息的泛滥，两种常用策略是：(i) 由专业机构进行事实核查，以及(ii) 平台用户进行社区内容审核。Twitter/X及近期Meta的政策调整，显示出从与事实核查机构合作转向更多地依赖众包社区注释的趋势。然而，事实核查与有益社区注释之间的依赖程度及性质仍不明确。为解答这些问题，我们运用语言模型对一个大型Twitter/X社区注释语料库进行标注，涵盖主题、引用来源及是否反驳与更广泛虚假信息叙事相关的声明等属性。分析表明，社区注释引用事实核查来源的频率高达之前报告的五倍。对于与更广泛叙事相关的帖子，其注释引用事实核查来源的可能性是其他来源的两倍，凸显了事实核查在此类情境下的关键作用。总之，我们的研究结果表明，成功的社区内容审核在很大程度上依赖于专业的事实核查工作。

MutaGReP：基于代码库的无执行计划搜索
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use

Feb 21, 2025

Zaid Khan, Ali Farhadi, Ranjay Krishna, Luca Weihs, Mohit Bansal, Tanmay Gupta

当人类请求大型语言模型（LLM）利用大型代码库中的功能完成编程任务时，我们如何向LLM提供代码库的上下文？一种方法是将整个代码库添加到LLM的上下文窗口中。然而，大多数任务仅涉及代码库中的一小部分符号，过长的上下文会损害LLM的推理能力，且上下文窗口并非无限。另一种方法是模拟人类在大型代码库中导航、挑选合适功能并制定任务解决计划的能力。我们提出了MutaGReP（基于变异的代码库计划搜索），这是一种搜索计划的方法，将用户请求分解为基于代码库的自然语言步骤。MutaGReP在计划空间中进行神经树搜索，通过变异计划进行探索，并使用符号检索器进行基础构建。在具有挑战性的LongCodeArena基准测试中，我们的计划仅使用了GPT-4o 128K上下文窗口的不到5%，但其编码性能却与填满代码库上下文的GPT-4o相当。MutaGReP生成的计划使Qwen 2.5 Coder 32B和72B能够与具有完整代码库上下文的GPT-4o性能相媲美，并在最难的LongCodeArena任务上取得进展。项目页面：zaidkhan.me/MutaGReP。

警惕差距！大型音频模型的静态与交互式评估
Mind the Gap! Static and Interactive Evaluations of Large Audio Models

Feb 21, 2025

Minzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang

随着AI聊天机器人日益普及，语音交互为快速、高带宽的语义及社交信号传递提供了一种引人注目的方式。这推动了大型音频模型（LAMs）的研究，以支撑原生语音体验的发展。然而，要使LAM的开发与用户目标保持一致，必须清晰理解用户需求与偏好，从而建立可靠的进展评估指标。本研究通过引入一种交互式方法来评估LAM，并从484名参与者中收集了7,500次LAM交互数据，以应对这些挑战。通过对用户查询的主题建模，我们识别出了音频界面的主要应用场景。随后，我们分析用户偏好排序及定性反馈，以确定哪些模型最符合用户需求。最后，我们评估静态基准测试对交互性能的预测能力——分析显示，没有任何单一基准测试与交互结果有强相关性（所有基准测试的τ≤0.33）。虽然结合多个粗粒度特征能带来一定的预测能力（R²=0.30），但在二十个关于口语问答和年龄预测的数据集中，仅有两个显示出显著的正相关。这表明，迫切需要开发与用户偏好更紧密关联的LAM评估方法。

早期退出与即时置信度翻译质量评估
Early-Exit and Instant Confidence Translation Quality Estimation

Feb 20, 2025

Vilém Zouhar, Maike Züfle, Beni Egressy, Julius Cheng, Jan Niehues

质量评估在机器翻译中无处不在，无论是用于评估还是生成环节。然而，质量评估模型往往不透明且计算成本高昂，这使得它们难以融入大规模处理流程。本研究致力于解决两个相互关联的挑战：(1) 降低大规模质量评估的成本，(2) 开发一种低成本的质量评估不确定性估计方法。针对后者，我们提出了Instant Confidence COMET，这是一种具备不确定性感知能力的质量评估模型，它以极低的成本达到了以往方法的性能水平。我们进一步将其扩展为Early-Exit COMET，这种质量评估模型能够在模型早期层级就计算出质量分数及相应的置信度，从而允许我们提前终止计算，降低评估成本。此外，我们还将该模型应用于机器翻译的重排序任务中。通过将Early-Exit COMET与上置信区间多臂赌博机算法结合，我们能够从大量候选翻译中找出最佳选项，而无需对所有候选执行完整的评估模型。无论是评估还是重排序场景，我们的方法均将所需计算量减少了50%，同时性能损失微乎其微。

MegaLoc：一检索定全局
MegaLoc: One Retrieval to Place Them All

Feb 24, 2025

Gabriele Berton, Carlo Masone

从与给定查询相同的位置检索图像，是多个计算机视觉任务中的重要组成部分，如视觉地点识别、地标检索、视觉定位、三维重建以及同步定位与地图构建（SLAM）。然而，现有解决方案通常专为其中某一任务设计，当需求稍有变化或遇到分布外数据时，往往表现不佳。本文中，我们整合了多种现有方法、训练技术和数据集，训练出一个名为MegaLoc的检索模型，该模型在多项任务中均表现出色。我们发现，MegaLoc（1）在大量视觉地点识别数据集上达到了业界领先水平，（2）在常见的地标检索数据集上取得了令人印象深刻的成果，以及（3）在LaMAR数据集上的视觉定位任务中，仅通过替换检索方法，便为现有定位流程设立了新的标杆。MegaLoc的代码已公开于https://github.com/gmberton/MegaLoc。

自学习长上下文理解智能体
Self-Taught Agentic Long Context Understanding

Feb 21, 2025

Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum

处理复杂、长上下文的问题仍然是大型语言模型（LLMs）面临的主要挑战，因为这需要有效的问题澄清和上下文检索。我们提出了“主动性长上下文理解框架”（AgenticLU），该框架旨在通过将目标自我澄清与上下文基础整合到主动性工作流程中，增强LLM对此类查询的理解。AgenticLU的核心是“澄清链”（CoC），模型通过自我生成的澄清问题及相应的上下文基础来精炼其理解。通过将推理扩展为树搜索，其中每个节点代表一个CoC步骤，我们在NarrativeQA上实现了97.8%的答案召回率，搜索深度可达三层，分支因子为八。为了将这一高成本搜索过程分摊到训练中，我们利用CoC工作流程获得的每一步偏好对，并执行两阶段模型微调：（1）监督微调以学习有效的分解策略，（2）直接偏好优化以提升推理质量。这使得AgenticLU模型能够在单次推理过程中高效地生成澄清并检索相关上下文。在七个长上下文任务上的广泛实验表明，AgenticLU显著优于最先进的提示方法和专门的长上下文LLMs，实现了稳健的多跳推理，并在上下文长度增长时保持一致的性能。

MONSTER：莫纳什可扩展时间序列评估库
MONSTER: Monash Scalable Time Series Evaluation Repository

Feb 21, 2025

Angus Dempster, Navid Mohammadi Foumani, Chang Wei Tan, Lynn Miller, Amish Mishra, Mahsa Salehi, Charlotte Pelletier, Daniel F. Schmidt, Geoffrey I. Webb

我们推出MONSTER——莫纳什可扩展时间序列评估库，这是一个专为时间序列分类而设计的大型数据集集合。时间序列分类领域已从UCR和UEA时间序列分类库设定的通用基准中受益匪浅。然而，这些基准中的数据集规模较小，中位数分别仅为217和255个样本。因此，它们倾向于支持那些在多种小型数据集上优化以达到低分类误差的模型，即那些最小化方差、对计算问题（如可扩展性）考虑较少的模型。我们希望通过引入基于更大数据集的基准，来丰富该领域的研究。我们相信，通过应对从大量数据中有效学习的理论与实践挑战，该领域将迎来巨大的新进展潜力。

基于ViT与CNN架构的胸部X光图像COVID-19重症程度诊断
Diagnosing COVID-19 Severity from Chest X-Ray Images Using ViT and CNN Architectures

Feb 23, 2025

Luis Lara, Lucia Eve Berger, Rajesh Raju, Shawn Whitfield

新冠疫情对医疗资源造成了巨大压力，并引发了关于机器学习如何减轻医生负担、辅助诊断的广泛讨论。胸部X光片（CXRs）被用于新冠肺炎的诊断，但鲜有研究基于CXRs预测患者病情的严重程度。在本研究中，我们通过整合三个来源的数据，构建了一个大规模的新冠病情严重程度数据集，并探究了基于ImageNet和CXR预训练模型以及视觉Transformer（ViTs）在病情严重程度回归与分类任务中的有效性。其中，预训练的DenseNet161模型在三类病情严重程度预测问题上表现最佳，整体准确率达到80%，在轻度、中度和重度病例上的准确率分别为77.3%、83.9%和70%。而ViT在回归任务中取得了最优结果，其预测的病情严重程度评分与放射科医生的评分相比，平均绝对误差为0.5676。本项目的源代码已公开。

M3-AGIQA：多模态、多轮次、多维度的人工智能生成图像质量评估
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment

Feb 21, 2025

Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu

人工智能生成图像（AGI）模型的快速发展，在评估其质量方面引入了重大挑战，这需要从感知质量、提示对应性和真实性等多个维度进行考量。为应对这些挑战，我们提出了M3-AGIQA，一个多模态、多轮次、多方面的AGI质量评估综合框架。我们的方法利用多模态大语言模型（MLLMs）作为联合文本与图像编码器，并通过低秩适应（LoRA）微调将在线MLLMs的高级描述能力蒸馏至本地模型。该框架包含一个结构化的多轮评估机制，其中生成中间图像描述以深入洞察质量、对应性和真实性等方面。为使预测与人类感知判断一致，我们引入了一个由xLSTM和回归头构建的预测器，用于处理序列逻辑值并预测平均意见得分（MOSs）。在多个基准数据集上的广泛实验表明，M3-AGIQA实现了最先进的性能，有效捕捉了AGI质量的细微差别。此外，跨数据集验证证实了其强大的泛化能力。代码可在https://github.com/strawhatboy/M3-AGIQA获取。

布朗球体中的蛇
The snake in the Brownian sphere

Feb 18, 2025

Omer Angel, Emmanuel Jacob, Brett Kolesnik, Grégory Miermont

布朗球体是一种随机度量空间，同胚于二维球面，它作为多种随机平面图普适的尺度极限而出现。布朗球体的直接构建是通过Cori-Vauquelin-Schaeffer（CVS）双射的连续类比实现的。CVS双射将标记树映射到平面图，而其连续版本则将带有布朗标记的Aldous连续随机树（即布朗蛇）映射到布朗球体。在本研究中，我们通过将布朗蛇构造为布朗球体的可测函数，描述了连续CVS双射的逆映射。在处理布朗球体的定向时，需要特别谨慎。

AI研究论文每日精选

每日精选AI研究论文及翻译

VideoGrain：时空注意力调制实现多粒度视频编辑
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Feb 24, 2025

Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang

795

长上下文大语言模型如是说
Thus Spake Long-Context Large Language Model

Feb 24, 2025

Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu

736