AI研究论文每日精选

每日精选AI研究论文及翻译

xVerify：推理模型评估中的高效答案验证器
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

Apr 14

ByDing Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li

随着OpenAI发布o1模型，采用慢思考策略的推理模型逐渐兴起。由于此类模型生成的响应往往包含复杂的推理、中间步骤和自我反思，现有的评估方法往往显得不足。它们难以判断大语言模型（LLM）的输出是否真正等同于参考答案，也难以从冗长复杂的响应中识别并提取最终答案。为解决这一问题，我们提出了xVerify，一种用于推理模型评估的高效答案验证器。xVerify在等价性判断方面展现出强大能力，能够有效判定推理模型在各种客观题型下生成的答案是否与参考答案等价。为训练和评估xVerify，我们构建了VAR数据集，通过收集多个LLM在不同数据集上生成的问答对，利用多个推理模型及专为推理模型评估设计的挑战性评估集，并采用多轮标注流程确保标签准确性。基于VAR数据集，我们训练了多个不同规模的xVerify模型。在测试集和泛化集上的评估实验中，所有xVerify模型的总体F1分数和准确率均超过95%。值得注意的是，最小规模的变体xVerify-0.5B-I在除GPT-4o外的所有评估方法中表现最佳，而xVerify-3B-Ib在整体性能上超越了GPT-4o。这些结果验证了xVerify的有效性和泛化能力。

Seedream 3.0 技术报告
Seedream 3.0 Technical Report

Apr 15

ByYu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang

我们推出Seedream 3.0，这是一款高性能的中英双语图像生成基础模型。针对Seedream 2.0存在的多项挑战，我们开发了多项技术改进，包括复杂提示的对齐、精细排版生成、视觉美学与保真度的优化以及图像分辨率的提升。具体而言，Seedream 3.0的进步源于从数据构建到模型部署整个流程的全面优化。在数据层面，我们采用缺陷感知训练范式与双轴协作数据采样框架，使数据集规模翻倍。此外，在预训练阶段，我们引入了混合分辨率训练、跨模态RoPE、表示对齐损失及分辨率感知时间步采样等多项有效技术。在训练后阶段，我们利用多样化的美学描述进行SFT，并采用基于VLM的奖励模型进行缩放，从而实现了与人类偏好高度契合的输出。更为重要的是，Seedream 3.0开创了一种新颖的加速范式。通过采用一致噪声期望与重要性感知时间步采样，我们在保持图像质量的同时实现了4至8倍的加速。相较于Seedream 2.0，Seedream 3.0展现出显著提升：它增强了整体能力，特别是在复杂汉字文本渲染方面，这对于专业排版生成至关重要。此外，它还提供了原生高分辨率输出（最高可达2K），能够生成具有高视觉品质的图像。

天才：一种通用且纯无监督的自训练框架面向高级推理
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

Apr 11

ByFangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu

提升大语言模型（LLM）的推理能力已引起广泛关注。然而，现有的后训练技术严重依赖监督信号，如结果监督或辅助奖励模型，这些方法面临可扩展性差和高标注成本的问题。这促使我们探索无需外部监督即可增强LLM推理能力的方法。我们引入了一种通用且完全无监督的自训练框架，命名为Genius。在不依赖外部辅助的情况下，Genius需要逐步寻找最优响应序列并优化LLM。为了探索潜在步骤并利用最优步骤，Genius采用了一种逐步前瞻重采样策略，通过模拟未来结果来采样并估计步骤价值。此外，我们认识到无监督设置不可避免地会引入内在噪声和不确定性。为了提供稳健的优化，我们提出了一种优势校准优化（ACO）损失函数，以减轻估计不一致性。结合这些技术，Genius为在无监督条件下通过通用查询自我提升LLM推理能力迈出了重要的一步，鉴于通用查询的广泛可用性，革新了推理扩展定律。代码将在https://github.com/xufangzhi/Genius发布。

指令与推理数据如何塑造后训练：从层级梯度视角看数据质量
How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients

Apr 14

ByMing Li, Yanhong Li, Ziyue Li, Tianyi Zhou

随着大语言模型（LLMs）的后训练从指令跟随任务向复杂推理任务推进，理解不同数据如何影响微调动态仍是一个尚未深入探索的领域。本文中，我们针对LLM后训练中由低/高质量指令与推理数据引发的逐层梯度进行了谱分析。我们的分析揭示，广泛研究的数据评估指标，如IFD、InsTag、难度及奖励，均可通过梯度奇异值分解（SVD）计算出的谱特性得到解释与统一。具体而言，高质量数据通常与较低的核范数及较高的有效秩相关联。值得注意的是，在捕捉细微质量差异方面，有效秩展现出比核范数更好的鲁棒性与分辨率。例如，推理数据相较于指令数据实现了显著更高的有效秩，暗示了在更复杂任务上梯度结构更为丰富。我们的实验还表明，同一家族内的模型不论规模大小，其梯度模式均相似，而不同模型家族间则存在显著差异。本研究为跨指令与推理数据的数据质量影响提供了统一视角，阐明了数据质量与训练稳定性之间的相互作用，为开发更优的后训练数据探索策略提供了新颖见解。

Heimdall：生成式验证中的测试时缩放
Heimdall: test-time scaling on the generative verification

Apr 14

ByWenlei Shi, Xing Jin

一个AI系统能够创建和维护知识的程度，取决于其自我验证这些知识的能力。近期关于长链思维推理的研究展示了大型语言模型（LLMs）在解决竞争性问题上的巨大潜力，但其验证能力仍显薄弱，且未得到充分探究。本文提出Heimdall，一款专长于长链思维验证的LLM，能够精准判断解决方案的正确性。通过纯强化学习，我们在竞争性数学问题上将验证准确率从62.5%提升至94.5%。借助重复采样的扩展，准确率进一步攀升至97.5%。经人类评估，Heimdall展现了卓越的泛化能力，成功识别出训练中未包含的复杂数学证明中的多数问题。此外，我们提出悲观验证法，以扩展Heimdall的功能，助力问题求解的规模化。该方法调用Heimdall评判来自求解模型的解答，并基于悲观原则，选择最可能正确且不确定性最小的解。以DeepSeek-R1-Distill-Qwen-32B作为求解模型，悲观验证在AIME2025上将解答准确率从54.2%提升至70.0%，计算预算增加16倍时达到83.3%。采用更强大的求解器Gemini 2.5 Pro，得分攀升至93.0%。最后，我们原型化了一个自动知识发现系统，这是一个三元系统，其中一方提出问题，另一方提供解答，第三方验证解答。利用NuminaMath的数据合成工作作为前两个组件，Heimdall有效识别了数据集中的问题记录，揭示出近半数数据存在缺陷，这一发现与NuminaMath最近的消融研究结果不谋而合。

文本竞技场
TextArena

Apr 15

ByLeon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan

TextArena 是一个开源的文本竞技游戏集合，专为大型语言模型（LLMs）的智能行为训练与评估而设计。它涵盖了57种以上的独特环境（包括单人、双人及多人模式），并通过在线对战系统（支持与人类及其他提交的模型对抗）实时展示TrueSkill评分，从而便捷地评估模型能力。传统基准测试往往忽视了诸如谈判、心智理论及欺骗等动态社交技能的考察，而TextArena正填补了这一空白。以研究、社区参与及可扩展性为核心设计理念，TextArena着重强调新增游戏的简易性、框架的适应性、模型的测试、与模型对弈以及模型训练的便捷性。关于环境、游戏、排行榜及示例的详细文档，请访问 https://github.com/LeonGuertler/TextArena 和 https://www.textarena.ai/。

Pixel-SAIL：面向像素级理解的单一Transformer模型
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

Apr 14

ByTao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng

多模态大语言模型（MLLMs）在细粒度像素级理解任务中展现出卓越性能。然而，现有研究均高度依赖额外组件，如视觉编码器（CLIP）、分割专家等，导致系统复杂度高，限制了模型扩展。本研究旨在探索一种高度简化的MLLM，无需引入额外组件。我们的工作受到近期单Transformer作为统一视觉-语言模型（SAIL）设计研究的启发，这些研究在Transformer中联合学习视觉标记与文本标记。我们提出了Pixel-SAIL，一个面向像素级MLLM任务的单一Transformer模型。具体而言，我们在基础模型上实现了三项技术改进。首先，设计了一个可学习的上采样模块，以精炼视觉标记特征。其次，提出了一种新颖的视觉提示注入策略，使单一Transformer能够理解视觉提示输入，并受益于视觉提示嵌入与视觉标记的早期融合。再者，引入了一种视觉专家蒸馏策略，有效增强单一Transformer的细粒度特征提取能力。此外，我们通过人工检查收集了一个全面的像素理解基准（PerBench），包含三项任务：详细物体描述、基于视觉提示的问答以及视觉-文本参照分割。在四个参照分割基准、一个视觉提示基准及我们的PerBench上的大量实验表明，Pixel-SAIL以更为简洁的流程取得了可比甚至更优的结果。代码与模型将发布于https://github.com/magic-research/Sa2VA。

高效推理模型：综述
Efficient Reasoning Models: A Survey

Apr 15

BySicheng Feng, Gongfan Fang, Xinyin Ma, Xinchao Wang

推理模型在解决复杂且逻辑密集的任务上展现了显著进展，其方法是在得出最终答案前生成扩展的思维链（CoTs）。然而，这种“慢思考”范式的兴起，伴随着大量连续生成的标记，不可避免地引入了巨大的计算开销。因此，这凸显了对有效加速的迫切需求。本综述旨在全面概述高效推理领域的最新进展，将现有工作归纳为三个关键方向：（1）更短——将冗长的CoTs压缩为简洁而有效的推理链；（2）更小——通过知识蒸馏、其他模型压缩技术及强化学习等方法，开发具备强大推理能力的紧凑语言模型；（3）更快——设计高效的解码策略以加速推理过程。本综述所讨论的论文精选集可在我们的GitHub仓库中查阅。

极简主义视角下的LLM推理：从拒绝采样到强化学习
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

Apr 15

ByWei Xiong, Jiarui Yao, Yuhui Xu, Bo Pang, Lei Wang, Doyen Sahoo, Junnan Li, Nan Jiang, Tong Zhang, Caiming Xiong, Hanze Dong

强化学习（RL）已成为在复杂推理任务上微调大型语言模型（LLMs）的主流方法。在近期的方法中，GRPO因其在训练如DeepSeek-R1等模型上的实证成功而脱颖而出，但其有效性的根源仍不甚明了。本研究从类强化算法视角重新审视GRPO，并剖析其核心组件。令人惊讶的是，我们发现一个仅基于正向奖励样本进行训练的简单拒绝采样基线——RAFT，其性能与GRPO和PPO相当。通过消融研究，我们揭示出GRPO的主要优势在于摒弃了完全错误响应的提示，而非其奖励归一化机制。受此启发，我们提出了Reinforce-Rej，这是策略梯度的一个最小扩展，它同时过滤完全错误和完全正确的样本。Reinforce-Rej提升了KL效率与稳定性，作为更复杂RL算法的一个轻量级且有效的替代方案。我们推荐RAFT作为一个稳健且可解释的基线，并建议未来的进展应聚焦于更原则性地设计如何融入负样本，而非不加区分地依赖它们。我们的发现为基于奖励的LLM后训练未来工作提供了指导。

NormalCrafter：基于扩散先验从视频中学习时序一致的法线
NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

Apr 15

ByYanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang

表面法线估计是众多计算机视觉应用的基础。尽管已有大量研究致力于静态图像场景，但在视频法线估计中确保时间一致性仍是一个重大挑战。不同于简单地为现有方法添加时间组件，我们提出了NormalCrafter，旨在充分利用视频扩散模型固有的时间先验。为了在序列中实现高保真的法线估计，我们提出了语义特征正则化（SFR），它通过将扩散特征与语义线索对齐，促使模型聚焦于场景的内在语义。此外，我们引入了一种两阶段训练策略，结合潜在空间和像素空间的学习，以在保持长时间上下文的同时确保空间精度。广泛的评估验证了我们方法的有效性，展示了其在从多样视频中生成具有精细细节且时间一致的法线序列方面的卓越性能。

DataDecide：如何通过小型实验预测最佳预训练数据
DataDecide: How to Predict Best Pretraining Data with Small Experiments

Apr 15

ByIan Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge

由于大型语言模型在不同数据集上进行预训练成本高昂，因此通过小规模实验来决定数据选择对于降低成本至关重要。哪些基准测试方法以及从小规模观察到的性能中做出决策的方法，能够最准确地预测出能产生最佳大型模型的数据集？为了推动这一问题的开放探索，我们发布了DataDecide——这是最全面的开放模型套件，涵盖了数据和规模差异。我们进行了控制性预训练实验，涉及25个不同来源、去重和过滤的语料库，规模高达1000亿个标记，模型参数规模高达10亿，并使用了3个随机种子。我们发现，在单一小规模（例如1.5亿参数）下模型的排名，对于预测我们更大目标规模（10亿）下的最佳模型是一个强有力的基线（约80%的比较正确）。在8个基线方法中，没有任何一种缩放定律方法能够超越单尺度预测的计算决策边界，但DataDecide能够衡量未来缩放定律的改进。我们还发现，在小规模实验中使用连续似然度量作为代理，使得包括MMLU、ARC、HellaSwag、MBPP和HumanEval在内的基准测试在目标10亿规模下仅需0.01%的计算量即可实现超过80%的预测准确性。

ReZero：通过“再试一次”提升大语言模型的搜索能力
ReZero: Enhancing LLM search ability by trying one-more-time

Apr 15

ByAlan Dao, Thinh Le

检索增强生成（RAG）技术提升了大型语言模型（LLM）在知识密集型任务中的表现，但其效果高度依赖于初始搜索查询的质量。现有方法多采用强化学习（RL），通常聚焦于查询构建或结果推理，而未能明确鼓励在搜索失败后继续尝试。我们提出了ReZero（重试归零），一种新颖的RL框架，它直接奖励在初次搜索未果后重新尝试查询的行为。这一机制激励LLM探索替代查询，而非过早终止。ReZero展现了显著改进，达到了46.88%的准确率，相较于25%的基准线。通过奖励持续性，ReZero增强了LLM在复杂信息检索场景中的鲁棒性，尤其是在初始查询可能不足的情况下。

简约的可扩展性：基于单一Transformer的视觉-语言学习实证分析
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

Apr 14

ByWeixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang

本文介绍了SAIL，一种单一Transformer架构的统一多模态大语言模型（MLLM），它将原始像素编码与语言解码集成于一体。与依赖预训练视觉Transformer（ViT）的现有模块化MLLM不同，SAIL摒弃了独立的视觉编码器，呈现出更为简约的架构设计。SAIL并未引入新的架构组件，而是通过混合注意力机制和多模态位置编码的调整，更好地适应视觉与文本模态的独特特性。我们系统性地比较了SAIL在可扩展性、跨模态信息流模式及视觉表征能力等方面与模块化MLLM的差异。通过同步扩大训练数据与模型规模，SAIL实现了与模块化MLLM相当的性能。尤为突出的是，去除预训练ViT组件增强了SAIL的可扩展性，并导致了显著不同的跨模态信息流模式。此外，SAIL展现出强大的视觉表征能力，在语义分割等视觉任务中取得了与ViT-22B相当的结果。代码与模型已发布于https://github.com/bytedance/SAIL。

SimpleAR：通过预训练、监督微调与强化学习推进自回归视觉生成的前沿
SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

Apr 15

ByJunke Wang, Zhi Tian, Xun Wang, Xinyu Zhang, Weilin Huang, Zuxuan Wu, Yu-Gang Jiang

本研究提出了SimpleAR，一个无需复杂架构修改的朴素自回归视觉生成框架。通过对训练和推理优化的深入探索，我们展示了以下成果：1）仅用5亿参数，我们的模型就能生成1024x1024分辨率的高保真图像，并在具有挑战性的文本到图像基准测试中取得竞争力成绩，例如在GenEval上达到0.59分，在DPG上获得79.66分；2）无论是通过监督微调（SFT）还是群体相对策略优化（GRPO）训练，都能显著提升生成美学和提示对齐效果；3）当采用如vLLM等推理加速技术优化后，SimpleAR生成一张1024x1024图像的时间可缩短至约14秒。通过分享这些发现并开源代码，我们期望揭示自回归视觉生成的潜力，并鼓励更多研究者参与这一领域。代码已发布于https://github.com/wdrink/SimpleAR。

通过主动学习实现高效过程奖励模型训练
Efficient Process Reward Model Training via Active Learning

Apr 14

ByKeyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou

过程奖励模型（PRMs）为大型语言模型（LLMs）提供了步骤级别的监督，但无论是对于人类还是LLMs而言，扩大训练数据标注规模仍具挑战。为应对这一局限，我们提出了一种主动学习方法——ActPRM，该方法主动选择最不确定的样本进行训练，显著降低了标注成本。在训练过程中，我们利用PRM在前向传播后估计不确定性，仅保留高度不确定的数据。随后，一个能力强但成本高的推理模型对这些数据进行标注。接着，我们根据标注计算损失并更新PRM的权重。在基于池的主动学习设置中，我们将ActPRM与普通微调进行比较，结果表明ActPRM减少了50%的标注量，却实现了相当甚至更优的性能。除了标注效率的提升，我们进一步通过ActPRM筛选了超过100万条数学推理轨迹，保留了60%的数据。在此精选数据集上的后续训练，使得PRM在ProcessBench（75.0%）和PRMBench（65.5%）上相比同等规模模型，达到了新的最优（SOTA）水平。

通过嵌入表示预热实现高效生成模型训练
Efficient Generative Model Training via Embedded Representation Warmup

Apr 14

ByDeyuan Liu, Peng Sun, Xufeng Li, Tao Lin

扩散模型在生成高维数据方面表现出色，但在训练效率和表征质量上却不及自监督方法。我们发现了一个关键瓶颈：训练过程中未能充分利用高质量、富含语义的表征，这显著减缓了收敛速度。通过系统性分析，我们揭示了一个关键的表征处理区域——主要位于网络早期层——在这里，语义和结构模式的学习先于生成过程发生。为解决这一问题，我们提出了嵌入式表征预热（ERW），一种即插即用的框架。在第一阶段，ERW模块作为预热器，用高质量预训练表征初始化扩散模型的早期层。这种预热机制减轻了从零开始学习表征的负担，从而加速了收敛并提升了性能。我们的理论分析表明，ERW的有效性依赖于其精确整合到特定的神经网络层——即表征处理区域——模型在此主要处理和转换特征表征以供后续生成。我们进一步证实，ERW不仅加快了训练收敛速度，还提升了表征质量：实验表明，与当前最先进的REPA方法相比，我们的方法实现了40倍的训练速度提升。代码已发布于https://github.com/LINs-lab/ERW。

DeepMath-103K：一个大规模、具挑战性、去污染且可验证的数学数据集，用于推进推理研究
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

Apr 15

ByZhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

复杂数学推理能力是衡量人工智能水平的关键指标。尽管将强化学习（RL）应用于大语言模型（LLMs）展现出潜力，但进展却因缺乏大规模、具有足够挑战性、具备适合RL的可验证答案格式且未与评估基准混杂的训练数据而受到显著阻碍。为应对这些局限，我们推出了DeepMath-103K，一个包含约103,000道数学题的新大规模数据集，专为通过RL训练高级推理模型而设计。DeepMath-103K通过严格的流程精心构建，包括来源分析、针对多项基准的严格去污处理以及筛选高难度题目（主要为5至9级），其挑战性远超现有公开资源。每道题目均包含一个可验证的最终答案，支持基于规则的RL，以及三种由R1生成的解决方案，适用于监督微调或蒸馏等多种训练范式。DeepMath-103K涵盖广泛的数学主题，促进了可泛化推理能力的发展。我们证明，基于DeepMath-103K训练的模型在具有挑战性的数学基准测试中取得了显著提升，验证了其有效性。我们公开发布DeepMath-103K，以推动社区在构建更强大AI推理系统方面的进展：https://github.com/zwhe99/DeepMath。

D^2iT：动态扩散Transformer，实现精准图像生成
D^2iT: Dynamic Diffusion Transformer for Accurate Image Generation

Apr 13

ByWeinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao

扩散模型因其生成高保真图像的能力而广受认可。尽管扩散变换器（DiT）架构展现出卓越的性能和可扩展性，但在扩散过程中，它对不同图像区域采用了固定的压缩策略，忽视了这些区域自然存在的信息密度差异。然而，过大的压缩会限制局部真实感，而过小的压缩则增加计算复杂度并损害全局一致性，最终影响生成图像的质量。为解决这些局限，我们提出通过识别不同区域的重要性来动态压缩图像区域，并引入一个新颖的两阶段框架，旨在提升图像生成的效率与效果：（1）在第一阶段，动态变分自编码器（DVAE）采用分层编码器，根据各区域特定的信息密度，以不同的下采样率编码图像区域，从而为扩散过程提供更准确、更自然的潜在编码。（2）在第二阶段，动态扩散变换器（D^2iT）通过预测多粒度噪声（包括平滑区域的粗粒度噪声和细节区域的细粒度噪声）来生成图像，这一过程结合了动态粒度变换器与动态内容变换器的新颖组合。通过将噪声的粗略预测与细节区域的修正相结合，该策略实现了全局一致性与局部真实感的统一。在多种生成任务上的全面实验验证了我们方法的有效性。代码将在https://github.com/jiawn-creator/Dynamic-DiT发布。

视觉谜题：将多模态推理评估与领域知识解耦
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge

Apr 14

ByYueqi Song, Tianyue Ou, Yibo Kong, Zecheng Li, Graham Neubig, Xiang Yue

当前的多模态基准测试常将推理能力与领域特定知识混为一谈，使得在非专业环境中孤立评估通用推理能力变得困难。为解决这一问题，我们推出了VisualPuzzles，这一基准测试专注于视觉推理，同时刻意减少对专业知识的依赖。VisualPuzzles包含五大类多样化问题：算法推理、类比推理、演绎推理、归纳推理及空间推理。其中，大量问题源自中国公务员考试中逻辑推理题的手工翻译。实验表明，与MMMU等基准相比，VisualPuzzles对领域特定知识的需求显著降低，而对复杂推理的要求更高，从而能更有效地评估真实的多模态推理能力。评估结果显示，在VisualPuzzles上，最先进的多模态大语言模型持续落后于人类表现，且在知识密集型基准上的优异表现并不必然转化为在推理为主、知识需求较低任务上的成功。此外，诸如扩大推理计算规模（采用“思考”模式）等推理增强措施，在不同模型和任务类型间带来的提升并不一致，且我们未观察到模型规模与性能之间存在明确关联。我们还发现，与更侧重知识的基准相比，模型在VisualPuzzles上展现出不同的推理和作答模式。VisualPuzzles提供了一个更清晰的视角，用以评估超越事实记忆和领域知识的推理能力。

RealHarm：真实世界语言模型应用失败案例集
RealHarm: A Collection of Real-World Language Model Application Failures

Apr 14

ByPierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora

面向消费者的语言模型应用部署带来了诸多风险。尽管现有研究基于监管框架和理论分析，采用自上而下的方法探讨了此类应用的危害与风险，但关于现实世界中故障模式的实证证据仍显不足。在本研究中，我们引入了RealHarm数据集，该数据集通过对公开报道事件进行系统审查，构建了与AI代理交互中出现问题的标注记录。从部署者的视角分析危害、原因及风险，我们发现声誉损害构成了最主要的组织性危害，而错误信息则是最常见的风险类别。我们实证评估了最先进的防护措施和内容审核系统，以探究这些系统是否能够预防此类事件的发生，结果揭示了AI应用保护方面存在显著差距。

AI-大学：一个基于大语言模型的平台，旨在实现科学课堂的教学一致性
AI-University: An LLM-based platform for instructional alignment to scientific classrooms

Apr 11

ByMostafa Faghih Shojaei, Rahul Gulati, Benjamin A. Jasperson, Shangshang Wang, Simone Cimolato, Dangli Cao, Willie Neiswanger, Krishna Garikipati

我们推出AI大学（AI-U），这是一个灵活的人工智能驱动课程内容传递框架，能够适应教师的教学风格。AI-U的核心在于通过检索增强生成（RAG）技术微调大型语言模型（LLM），从讲座视频、笔记和教材中生成与教师教学理念一致的回答。以研究生层次的有限元方法（FEM）课程为例，我们展示了一个可扩展的流程，系统地构建训练数据，利用低秩适应（LoRA）微调开源LLM，并通过基于RAG的合成优化其回答。我们的评估结合了余弦相似度、基于LLM的评估和专家评审，显示出与课程材料的强一致性。我们还开发了一个原型网络应用程序，访问地址为https://my-ai-university.com，该应用通过将AI生成的回答链接到相关课程材料的具体部分及开放访问视频讲座的时间戳实例，增强了可追溯性。我们的专家模型在86%的测试案例中与参考资料的余弦相似度更高。LLM评估者也发现，我们的专家模型在大约五分之四的情况下优于基础Llama 3.2模型。AI-U为AI辅助教育提供了一种可扩展的方法，为高等教育中的更广泛应用铺平了道路。在此，我们的框架以FEM课程为背景进行了展示——该课程是培养工程科学博士和硕士研究生的核心内容。然而，这一背景是更广泛情境中的一个特例：即针对科学研究内容微调LLM。

通过分组感知SSM剪枝实现高效混合语言模型压缩
Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning

Apr 15

ByAli Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Marcin Chochowski, Yashaswi Karnati, Raviraj Joshi, Ameya Sunil Mahabaleshwarkar, Zijia Chen, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov

融合注意力机制与状态空间模型（SSMs）的混合大语言模型架构，在实现顶尖准确率的同时，也展现了卓越的运行性能。近期研究表明，对仅依赖注意力机制的模型进行压缩与蒸馏，能够以极低的训练成本获得更小、更精确的模型。本研究中，我们深入探讨了混合架构压缩的有效性。我们提出了一种新颖的组感知剪枝策略，该策略在保持SSM模块结构完整性的同时，也维护了其序列建模能力。此外，我们证实了相较于传统方法，此类SSM剪枝对于提升模型准确率与推理速度的必要性。我们的压缩方案综合了SSM、前馈网络（FFN）、嵌入维度及层级剪枝，随后采用基于知识蒸馏的再训练，类似于MINITRON技术。运用此方法，我们将拥有80亿参数的Nemotron-H混合模型压缩至40亿参数，训练令牌数最多减少40倍。最终得到的模型在保持同等规模模型准确率的基础上，实现了推理速度翻倍，显著推进了帕累托前沿。

PVUW 2025挑战赛报告：复杂野外场景视频像素级理解的新进展
PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild

Apr 15

ByHenghui Ding, Chang Liu, Nikhila Ravi, Shuting He, Yunchao Wei, Song Bai, Philip Torr, Kehuan Song, Xinglin Xie, Kexin Zhang, Licheng Jiao, Lingling Li, Shuyuan Yang, Xuqiang Cao, Linnan Zhao, Jiaxuan Zhao, Fang Liu, Mengjiao Wang, Junpei Zhang, Xu Liu, Yuting Yang, Mengru Ma, Hao Fang, Runmin Cong, Xiankai Lu, Zhiyang Che, Wei Zhan, Tianming Liang, Haichao Jiang, Wei-Shi Zheng, Jian-Fang Hu, Haobo Yuan, Xiangtai Li, Tao Zhang, Lu Qi, Ming-Hsuan Yang

本报告全面概述了与CVPR 2025同期举办的第四届野外像素级视频理解挑战赛（PVUW）。报告总结了挑战赛的成果、参与方法及未来研究方向。本次挑战赛设有两个赛道：MOSE专注于复杂场景下的视频对象分割，而MeViS则致力于基于运动引导和语言的视频分割。两个赛道均引入了全新且更具挑战性的数据集，旨在更好地反映现实世界场景。通过细致的评估与分析，本次挑战赛为复杂视频分割领域的最新技术和新兴趋势提供了宝贵的洞见。更多信息可访问研讨会官网：https://pvuw.github.io/。

扩散蒸馏与直接偏好优化相结合的高效3D LiDAR场景补全
Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

Apr 15

ByAn Zhaol, Shengyuan Zhang, Ling Yang, Zejian Li, Jiale Wu, Haoran Xu, AnYang Wei, Perry Pengyun GU Lingyun Sun

由于扩散模型的采样速度较慢，其在3D LiDAR场景补全中的应用受到限制。分数蒸馏虽能加速扩散采样，但会导致性能下降，而通过直接策略优化（DPO）进行后训练，则能利用偏好数据提升性能。本文提出了一种新颖的扩散蒸馏框架——Distillation-DPO，用于实现偏好对齐的LiDAR场景补全。首先，学生模型生成具有不同初始噪声的成对补全场景。其次，以LiDAR场景评估指标作为偏好，构建胜败样本对。这种构建方式合理，因为大多数LiDAR场景指标信息丰富但不可微分，无法直接优化。再次，Distillation-DPO通过利用教师模型与学生模型在成对补全场景上评分函数的差异来优化学生模型。此过程重复进行直至收敛。大量实验表明，与最先进的LiDAR场景补全扩散模型相比，Distillation-DPO在实现更高质量场景补全的同时，将补全速度提升了5倍以上。据我们所知，我们的方法是首次探索在蒸馏中采用偏好学习，并为偏好对齐的蒸馏提供了洞见。我们的代码已公开在https://github.com/happyw1nd/DistillationDPO。

LazyReview：揭示NLP同行评审中惰性思维的数据集
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews

Apr 15

BySukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych

同行评审是科学出版质量控制的核心环节。随着工作量的不断增加，无意中采用“快速”启发式方法（即所谓的惰性思维）已成为影响评审质量的常见问题。自动化检测此类启发式方法的手段有助于改进同行评审流程。然而，针对这一问题的自然语言处理研究尚显不足，且缺乏支持检测工具开发的真实数据集。本研究推出了LazyReview，一个标注了细粒度惰性思维类别的同行评审句子数据集。我们的分析表明，大型语言模型（LLMs）在零样本设置下难以有效识别这些实例。但基于我们数据集进行指令微调后，模型性能显著提升了10到20个百分点，凸显了高质量训练数据的重要性。此外，一项对照实验证明，经过惰性思维反馈修订的评审意见比未接受此类反馈撰写的更为全面且具有可操作性。我们将公开此数据集及改进后的指导原则，供社区用于培训初级评审员。（代码获取地址：https://github.com/UKPLab/arxiv2025-lazy-review）

基于时序动态上下文的多模态长视频建模
Multimodal Long Video Modeling Based on Temporal Dynamic Context

Apr 14

ByHaoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue

近期，大型语言模型（LLMs）的进展在视频理解领域取得了显著突破。然而，现有模型在处理长视频时仍面临挑战，主要受限于LLMs的上下文长度限制以及视频中蕴含的庞大数据量。尽管一些最新方法专为长视频理解设计，但在令牌压缩过程中往往丢失关键信息，且难以处理音频等额外模态。本研究中，我们提出了一种利用帧间时间关系的动态长视频编码方法，称为时间动态上下文（Temporal Dynamic Context, TDC）。首先，我们基于帧间相似性将视频分割为语义一致的场景，随后通过视觉-音频编码器将每帧编码为令牌。其次，我们引入了一种新颖的时间上下文压缩器，以减少每段视频内的令牌数量。具体而言，我们采用基于查询的Transformer，将视频、音频及指令文本令牌聚合为一组有限的时间上下文令牌。最后，我们将静态帧令牌与时间上下文令牌输入LLM进行视频理解。此外，针对极长视频，我们提出了一种无需训练的思维链策略，逐步从多个视频片段中提取答案。这些中间答案作为推理过程的一部分，共同构成最终答案。我们在通用视频理解及音视频理解基准上进行了广泛实验，结果表明我们的方法表现优异。代码与模型已发布于https://github.com/Hoar012/TDC-Video。

自适应计算剪枝的遗忘Transformer
Adaptive Computation Pruning for the Forgetting Transformer

Apr 9

ByZhixuan Lin, Johan Obando-Ceron, Xu Owen He, Aaron Courville

近期提出的遗忘变换器（Forgetting Transformer, FoX）在softmax注意力机制中引入了遗忘门，其表现持续优于或与基于RoPE的标准变换器相当。值得注意的是，FoX中的许多注意力头倾向于快速遗忘，使得它们在每个时间步的输出主要依赖于局部上下文。基于这一观察，我们为FoX提出了自适应计算剪枝（Adaptive Computation Pruning, ACP）方法，该方法动态剪除那些因遗忘门作用而显著衰减的输入输出依赖关系所涉及的计算。这是通过动态设定的剪枝阈值实现的，确保被剪除的注意力权重保持可忽略不计。我们将ACP应用于FoX的语言模型预训练中，结果显示，在不同模型规模和上下文长度下，softmax注意力机制中的浮点运算次数（FLOPs）均减少了约70%，训练吞吐量因此提升了大约10%至35%。此外，更长的上下文长度带来了更大的计算节省。所有这些速度提升均未导致性能下降。我们还进行了多项分析，以深入理解我们的方法，例如研究剪枝模式并分析不同注意力头间FLOP节省的分布情况。我们的代码可在https://github.com/zhixuan-lin/arctic-fox 获取。

多模态演示摘要的视觉-语言模型研究：模态与结构效应分析
Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure

Apr 14

ByThéo Gigant, Camille Guinaudeau, Frédéric Dufaux

视觉语言模型（VLMs）能够处理多种格式的视觉与文本信息：纯文本、图像、图文交替内容，甚至长达数小时的视频。在本研究中，我们对利用VLMs进行多模态演示自动摘要的多种输入表示进行了细致的定量与定性分析。基于这些实验，我们提出了在不同输入长度预算下，从文本密集的多模态文档中生成摘要的成本效益策略。研究表明，相较于原始视频，从视频流中提取的幻灯片作为输入更具优势，而图文交替的幻灯片与文字记录的结构化表示则能带来最佳性能。最后，我们反思并评论了多模态演示中跨模态交互的本质，并分享了提升VLMs理解此类文档能力的建议。

将生成式去噪与判别式目标对齐，释放扩散模型在视觉感知中的潜力
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

Apr 15

ByZiqi Pang, Xin Xu, Yu-Xiong Wang

随着图像生成的成功，生成扩散模型正越来越多地被应用于判别任务，因为像素生成提供了一个统一的感知接口。然而，直接将生成去噪过程重新用于判别目标，暴露出之前鲜少被关注的关键差距。生成模型能够容忍中间采样误差，只要最终分布保持合理即可，但判别任务则要求整个过程严格准确，这在具有挑战性的多模态任务（如参考图像分割）中尤为明显。受此差距启发，我们分析并增强了生成扩散过程与感知任务之间的对齐，重点关注去噪过程中感知质量如何演变。我们发现：（1）早期的去噪步骤对感知质量的贡献不成比例，促使我们提出反映不同时间步贡献的定制学习目标；（2）后期的去噪步骤显示出意外的感知质量下降，突显了对训练-去噪分布偏移的敏感性，我们通过专门为扩散设计的数据增强来解决这一问题；（3）生成过程独特地实现了交互性，作为可控的用户界面，能够适应多轮交互中的校正提示。我们的见解显著提升了基于扩散的感知模型性能，无需改变架构，在深度估计、参考图像分割及通用感知任务上达到了最先进的水平。代码可在https://github.com/ziqipang/ADDP获取。

遥感变化检测中的状态空间模型变换
Change State Space Models for Remote Sensing Change Detection

Apr 15

ByElman Ghazaei, Erchan Aptoula

尽管卷积神经网络（ConvNets）和视觉Transformer（ViT）在变化检测中频繁使用，但两者均存在众所周知的局限性：前者难以建模长程依赖关系，而后者计算效率低下，这使得它们在大规模数据集上的训练颇具挑战。基于状态空间模型的Vision Mamba架构应运而生，旨在解决上述不足，并已应用于遥感变化检测，尽管主要作为特征提取的主干网络。本文提出的变化状态空间模型（Change State Space Model, CSSM），专为变化检测设计，通过聚焦于双时相图像间的相关变化，有效滤除无关信息。该模型仅关注变化特征，从而减少了网络参数数量，显著提升了计算效率，同时保持了高检测性能和对输入退化的鲁棒性。通过在三个基准数据集上的评估，所提模型以远低于ConvNets、ViTs及Mamba类模型的计算复杂度，实现了性能上的超越。模型实现将在论文录用后发布于https://github.com/Elman295/CSSM。

AI研究论文每日精选

每日精选AI研究论文及翻译

xVerify：推理模型评估中的高效答案验证器
xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

Apr 14

ByDing Chen, Qingchen Yu, Pengyuan Wang, Wentao Zhang, Bo Tang, Feiyu Xiong, Xinchi Li, Minchuan Yang, Zhiyu Li

Seedream 3.0 技术报告
Seedream 3.0 Technical Report

Apr 15

天才：一种通用且纯无监督的自训练框架面向高级推理
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

Apr 11

ByFangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu

指令与推理数据如何塑造后训练：从层级梯度视角看数据质量
How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients

Apr 14

ByMing Li, Yanhong Li, Ziyue Li, Tianyi Zhou

Heimdall：生成式验证中的测试时缩放
Heimdall: test-time scaling on the generative verification

Apr 14

ByWenlei Shi, Xing Jin

文本竞技场
TextArena

Apr 15

ByLeon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan

Pixel-SAIL：面向像素级理解的单一Transformer模型
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding

Apr 14

ByTao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng

高效推理模型：综述
Efficient Reasoning Models: A Survey

Apr 15

BySicheng Feng, Gongfan Fang, Xinyin Ma, Xinchao Wang

极简主义视角下的LLM推理：从拒绝采样到强化学习
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce

Apr 15

ByWei Xiong, Jiarui Yao, Yuhui Xu, Bo Pang, Lei Wang, Doyen Sahoo, Junnan Li, Nan Jiang, Tong Zhang, Caiming Xiong, Hanze Dong

NormalCrafter：基于扩散先验从视频中学习时序一致的法线
NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

Apr 15

ByYanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang

DataDecide：如何通过小型实验预测最佳预训练数据
DataDecide: How to Predict Best Pretraining Data with Small Experiments

Apr 15

ByIan Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge

ReZero：通过“再试一次”提升大语言模型的搜索能力
ReZero: Enhancing LLM search ability by trying one-more-time

Apr 15

ByAlan Dao, Thinh Le

简约的可扩展性：基于单一Transformer的视觉-语言学习实证分析
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

Apr 14

ByWeixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang

SimpleAR：通过预训练、监督微调与强化学习推进自回归视觉生成的前沿
SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

Apr 15

ByJunke Wang, Zhi Tian, Xun Wang, Xinyu Zhang, Weilin Huang, Zuxuan Wu, Yu-Gang Jiang

通过主动学习实现高效过程奖励模型训练
Efficient Process Reward Model Training via Active Learning

Apr 14

ByKeyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou

通过嵌入表示预热实现高效生成模型训练
Efficient Generative Model Training via Embedded Representation Warmup

Apr 14

ByDeyuan Liu, Peng Sun, Xufeng Li, Tao Lin

DeepMath-103K：一个大规模、具挑战性、去污染且可验证的数学数据集，用于推进推理研究
DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

Apr 15

ByZhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu