每日精选AI研究论文及翻译
学术演示视频已成为科研交流的重要媒介,但其制作过程依然高度耗时,通常需要数小时的幻灯片设计、录制和剪辑,才能生成一段2至10分钟的短片。与自然视频不同,演示视频的生成面临独特挑战:输入源为研究论文,包含密集的多模态信息(文本、图表、表格),且需协调多个对齐通道,如幻灯片、字幕、语音及演讲者画面。为应对这些挑战,我们推出了PaperTalker,首个包含101篇研究论文及其作者制作的演示视频、幻灯片和演讲者元数据的基准数据集。此外,我们设计了四项定制评估指标——元相似度、演示竞技场、演示测验和知识产权记忆——以衡量视频向观众传递论文信息的效果。基于此基础,我们提出了PaperTalker,首个用于学术演示视频生成的多智能体框架。该框架集成了幻灯片生成与通过新颖的树搜索视觉选择进行有效布局优化、光标定位、字幕生成、语音合成及虚拟人像渲染,同时并行化逐页生成以提高效率。在Paper2Video上的实验表明,相较于现有基线方法,我们的方法生成的演示视频更加忠实且信息丰富,为自动化且即开即用的学术视频生成迈出了实用的一步。我们的数据集、智能体及代码已发布于https://github.com/showlab/Paper2Video。
诸如智能体和领域特定推理等大型语言模型(LLM)应用,日益依赖于上下文适应——通过指令、策略或证据调整输入,而非权重更新。先前的方法虽提升了可用性,却常受限于简洁性偏差,即为了简明扼要而舍弃领域洞察,以及上下文坍缩,即迭代重写过程中细节逐渐流失。基于动态速查表引入的自适应记忆,我们提出了ACE(Agentic Context Engineering,智能体上下文工程)框架,该框架将上下文视为不断演进的策略手册,通过生成、反思与整理的模块化过程,积累、精炼并组织策略。ACE采用结构化、增量式的更新方式,防止了上下文坍缩,保留了详细知识,并与长上下文模型协同扩展。在智能体及领域特定基准测试中,ACE优化了离线(如系统提示)和在线(如智能体记忆)上下文,持续超越强劲基线:智能体任务提升10.6%,金融领域提升8.6%,同时显著降低了适应延迟和部署成本。值得注意的是,ACE无需标注监督,而是通过利用自然执行反馈,即可有效适应。在AppWorld排行榜上,ACE在整体平均分上与顶级生产级智能体持平,并在更具挑战性的测试挑战部分超越之,尽管使用的是较小的开源模型。这些结果表明,全面且不断演进的上下文,能够以低开销实现可扩展、高效且自我提升的LLM系统。
视频理解是计算机视觉领域最具挑战性的前沿课题,它要求模型能够推理复杂的时空关系、长期依赖关系以及多模态证据。近期出现的视频-大型多模态模型(Video-LMMs),通过将视觉编码器与强大的基于解码器的语言模型相结合,在视频理解任务中展现了卓越的能力。然而,将这些模型从基础感知系统转变为高级推理引擎的关键阶段——训练后处理,在现有文献中仍显得零散。本综述首次全面审视了Video-LMMs的训练后处理方法,涵盖三大支柱:带有思维链的监督微调(SFT)、基于可验证目标的强化学习(RL),以及通过增强推理计算实现的测试时扩展(TTS)。我们构建了一个结构化分类体系,阐明了这些技术的角色、相互联系及针对视频特性的适应性调整,解决了诸如时间定位、时空基础、长视频处理效率和多模态证据整合等独特挑战。通过对代表性方法的系统分析,我们提炼出关键设计原则、洞见及评估协议,同时指出了奖励设计、可扩展性和成本效益优化等亟待解决的开放性问题。此外,我们还精选了重要的基准测试、数据集和评价指标,以促进对训练后效果进行严格评估。本综述旨在为研究人员和实践者提供一个统一框架,以推动Video-LMM能力的进一步发展。更多资源与更新维护于:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training。
树搜索已成为大型语言模型(LLMs)测试时推理的代表性框架,典型方法如“思维树”和蒙特卡洛树搜索,它们探索多种推理路径。然而,对中间推理步骤质量进行即时且可靠的定量评估仍具挑战性,且广泛的路径探索计算成本高昂。为此,我们提出了互信息树搜索(MITS),一个基于信息论原理指导推理的新框架。MITS引入了一种基于点互信息(PMI)的有效评分函数,能够逐步评估推理路径并通过束搜索扩展搜索树,无需昂贵的向前模拟,在保持计算效率的同时实现了卓越的推理性能。该框架辅以基于熵的动态采样策略,自适应地将计算资源分配到探索最为有益的不确定推理步骤上。对于最终预测,MITS采用加权投票方案,将PMI评分与预测共识相结合。通过在多样化推理基准上的全面实验,MITS持续超越基线方法,为LLM推理建立了一个原则性强且高效的框架。
近期视频生成模型虽能制作出流畅且视觉吸引人的片段,但在合成具有连贯因果链的复杂动态场景时仍显不足。准确建模随时间推移的视觉结果与状态转换,仍是核心挑战。相比之下,大型语言与多模态模型(如GPT-4o)展现出强大的视觉状态推理与未来预测能力。为融合这些优势,我们提出了VChain,一种新颖的推理时视觉思维链框架,它将多模态模型的视觉推理信号注入视频生成过程。具体而言,VChain包含一个专用流程,利用大型多模态模型生成一组稀疏的关键帧作为快照,随后仅在这些关键时刻指导预训练视频生成器的稀疏推理时微调。我们的方法调优高效,引入额外开销极小,并避免了密集监督。在复杂多步骤场景上的大量实验表明,VChain显著提升了生成视频的质量。
针对视觉模态的越狱攻击通常依赖于难以察觉的对抗性扰动,而针对文本模态的攻击则普遍被认为需要可见的修改(例如,非语义后缀)。本文中,我们引入了一种利用一类称为变体选择符的Unicode字符实现的不可察觉越狱方法。通过在恶意问题后附加不可见的变体选择符,越狱提示在屏幕上看起来与原始恶意问题完全相同,但其分词过程却“秘密”地被改变。我们提出了一种链式搜索流程,用于生成此类对抗性后缀以诱导有害响应。实验表明,我们的不可察觉越狱方法在针对四种对齐的大型语言模型上取得了高攻击成功率,并能推广至提示注入攻击,且无需在书面提示中产生任何可见的修改。我们的代码可在https://github.com/sail-sg/imperceptible-jailbreaks获取。
近期在大语言模型领域的进展表明,混合架构——将自注意力机制与结构化状态空间模型(如Mamba)相结合——能够在建模质量与计算效率之间取得引人注目的平衡,尤其是在处理长上下文任务时。尽管这些混合模型展现出令人期待的性能,但关于混合策略的系统性比较及其有效性背后关键因素的分析尚未在社区中明确分享。在本研究中,我们对基于层间(顺序)或层内(并行)融合的混合架构进行了全面评估。我们从多个角度评估这些设计:语言建模性能、长上下文处理能力、扩展性分析以及训练与推理效率。通过探究其计算原语的核心特征,我们识别出每种混合策略中最关键的元素,并进一步为两种混合模型提出了最优设计方案。我们的综合分析为开发混合语言模型提供了实用指导和宝贵见解,有助于优化架构配置。
尽管在模型和数据集规模扩展下的最优超参数迁移方面已取得最新进展,但尚未确立统一的解释性原则。通过使用Scion优化器,我们发现模型与数据集大小的联合最优缩放受单一不变量的支配:输出层的算子范数。在参数规模高达13亿、训练数据量达1380亿个token的模型范围内,最优学习率与批量大小的组合(η*, B*)始终具有相同的算子范数值——这一现象我们称之为范数迁移。这一恒定范数条件是必要但不充分的:对于每个数据集大小,虽然多个(η, B)能达到最优范数,但仅有一个独特的(η*, B*)能实现最佳损失。作为充分条件,我们首次测量了Scion中(η*, B*)随数据集大小的缩放规律,并发现其缩放规则与Adam优化器一致。分层组调整学习率也能提升模型性能,其中输出层最为敏感,而隐藏层则受益于较低的学习率。我们提供了关于范数引导最优缩放的实用见解,并发布了分布式Scion(Disco)实现及来自两千多次运行的日志,以支持大规模语言模型训练动态的研究。
Transformer架构已成为大型语言模型(LLMs)的事实标准,在语言理解和生成方面展现出卓越能力。然而,其在对话式AI中的应用从根本上受限于其无状态特性及与序列长度L相关的二次方计算复杂度(O(L^2))。现有模型通过每次对话轮次重新处理不断扩大的对话历史来模拟记忆,导致长对话中成本与延迟难以承受。本文提出了一种新颖架构——反应式Transformer(RxT),旨在通过从数据驱动转向事件驱动范式来克服这些限制。RxT将每次对话轮次作为实时离散事件处理,并在一个集成、固定大小的短期记忆(STM)系统中维护上下文。该架构具有独特的操作周期:生成器-解码器基于当前查询及先前记忆状态生成响应,随后记忆编码器与专用记忆注意力网络异步更新STM,存储完整交互的表示。这一设计从根本上改变了扩展动态,将对话的总用户面成本从与交互次数N相关的二次方(O(N^2 cdot T))降至线性(O(N cdot T))。通过解耦响应生成与记忆更新,RxT实现了低延迟,支持真正实时、有状态且经济可行的长对话。我们通过一系列在合成数据上的概念验证实验验证了该架构,相比规模相当的无状态基线模型,RxT展现了更优性能及恒定时间推理延迟。
当前提升大语言模型(LLM)推理能力的主流范式,主要依赖于对高质量、富含推理内容的数据进行后训练。尽管新兴研究表明,推理数据在中期训练阶段也逐渐被纳入——这一做法相对更具专属性且较少公开描述——但此类数据在预训练中的作用仍不明确。特别是,鉴于大多数前沿模型的预训练语料库不透明,关于在预训练和/或后训练的不同阶段引入推理数据的效果,在科学文献中相对较少报道。这引发了几个重要问题:在预训练早期加入推理数据是否比在后训练阶段引入更优?早期纳入是否会增加过拟合风险并损害泛化能力,还是能够奠定后期微调无法恢复的坚实基础?我们首次系统研究了推理数据——在规模、多样性和质量上有所变化——在不同训练阶段引入时对LLM性能的影响。研究发现,将推理数据前置到预训练阶段至关重要(平均提升19%),这建立了后期监督微调(SFT)即使使用更多数据也无法完全复制的基础能力。我们揭示了一个数据分配的最优非对称原则:预训练最受益于推理模式的广泛多样性(平均提升11%),而SFT则对数据质量更为敏感(平均提升15%)。我们展示了高质量预训练数据的潜在效应,这些效应仅在SFT后被激活,且盲目扩大SFT数据量可能适得其反,削弱早期推理注入的益处。我们的研究结果挑战了语言建模与推理的传统分离,为在整个训练流程中战略性地分配数据以构建更强大模型提供了原则性指导。
尽管现代视觉生成模型在创作美观的自然图像方面表现出色,但在生成或编辑结构化视觉内容(如图表、示意图和数学图形)时却面临挑战,这些任务需要构图规划、文本渲染以及多模态推理以确保事实准确性。为此,我们首次对这一领域进行了全面系统的研究,涵盖了数据构建、模型训练及评估基准的建立。首先,我们构建了一个包含130万对高质量结构化图像的大规模数据集,这些图像源自可执行的绘图程序,并通过链式思维推理注释进行了增强。在此基础上,我们训练了一个统一模型,该模型通过轻量级连接器将视觉语言模型(VLM)与FLUX.1 Kontext集成,以增强多模态理解能力。采用三阶段训练课程,实现了渐进式特征对齐、知识注入及推理增强的生成,并在推理时通过外部推理器进一步提升了性能。最后,我们推出了StructBench,这是一个包含1700多个挑战性实例的生成与编辑新基准,并配套了StructScore评估指标,该指标采用多轮问答协议来评估细粒度的事实准确性。对15个模型的评估显示,即便是领先的闭源系统也远未达到令人满意的水平。我们的模型在编辑性能上表现强劲,推理时的推理能力在不同架构中均带来了持续的提升。通过公开数据集、模型及基准,我们旨在推动结构化视觉内容统一多模态基础的发展。
指令微调在提升大语言模型(LLMs)的任务解决能力方面发挥着关键作用,增强了其在各类任务中生成有用响应的实用性。然而,先前的研究表明,LLMs对指令表述的细微变化极为敏感。本文探讨了在指令微调数据中引入扰动是否能增强LLMs对噪声指令的抵抗力。我们重点关注通过去除停用词或打乱词序等扰动方式进行指令微调,如何影响LLMs在原始及扰动版本广泛使用的基准测试(MMLU、BBH、GSM8K)上的表现。此外,我们还评估了学习动态及模型行为的潜在变化。令人惊讶的是,我们的结果表明,在某些情况下,基于扰动指令的指令微调能够提升下游任务性能。这些发现强调了在指令微调中包含扰动指令的重要性,这可以使LLMs对用户输入的噪声更具韧性。
语音对话系统通常依赖于级联的流水线,包括语音转录、处理和重新合成。虽然这种设计行之有效,但它舍弃了副语言线索,限制了表达的丰富性。近期的端到端方法降低了延迟,更好地保留了这些线索,但仍依赖于文本作为中间媒介,形成了根本性的瓶颈。我们提出了MOSS-Speech,一个真正的语音到语音大语言模型,它无需文本引导即可直接理解并生成语音。我们的方法结合了基于模态的分层架构与冻结预训练策略,在保留预训练文本大语言模型推理能力和知识的同时,增添了原生语音处理能力。实验表明,我们的模型在语音问答任务中达到了最先进的水平,在语音到语音转换性能上与现有的文本引导系统相当,同时在文本处理上仍保持竞争力。通过缩小文本引导与直接语音生成之间的差距,我们的研究为表达丰富且高效的端到端语音交互确立了新范式。
将强化学习应用于大型语言模型(LLMs)以执行推理任务时,常因对提示的固定且均匀响应采样而导致梯度估计不稳定,成为性能瓶颈。先前的研究如GVM-RAFT通过动态分配每个提示的推理预算,在预算约束下最小化随机梯度方差,解决了这一问题。受此启发,我们提出了Reinforce-Ada,一种用于LLMs在线强化学习后训练的自适应采样框架,该框架持续将采样努力重新分配到具有最大不确定性或学习潜力的提示上。与传统的两阶段分配方法不同,Reinforce-Ada在在线连续淘汰过程中交替进行估计与采样,并在收集到足够信号后自动停止对某一提示的采样。为了稳定更新,我们构建了具有强制奖励多样性的固定大小组,并利用自适应采样阶段聚合的全局统计数据计算优势基线。跨多种模型架构和推理基准的实证结果表明,与GRPO相比,Reinforce-Ada加速了收敛并提升了最终性能,尤其是在使用平衡采样变体时。我们的工作强调了方差感知、自适应数据管理在实现具备推理能力的LLMs高效可靠强化学习中的核心作用。代码可在https://github.com/RLHFlow/Reinforce-Ada获取。
大型语言模型(LLMs)与人类价值观的对齐日益依赖于将其他LLMs作为自动化评判者,即“自动评分器”。然而,其可靠性受到一个根本性问题的限制:它们是在离散的偏好标签上训练的,这迫使单一的标准答案应用于往往主观、模糊或微妙的任务。我们认为,一个可靠的自动评分器必须学会建模目标人群定义的完整偏好分布。本文中,我们提出了一个通用框架,用于将概率型自动评分器校准至任意给定的偏好分布。我们形式化了这一问题,并针对不同数据条件提出了两种学习方法:1)针对密集、概率标签的直接监督微调;2)针对稀疏、二元标签的强化学习策略。实证结果表明,以分布匹配为目标微调自动评分器,能够使口头表达的概率预测更好地与目标偏好分布对齐,同时提升校准度,显著降低位置偏差,且在客观任务上保持性能不变。
强化学习在推动大规模语言模型推理的近期进展中占据核心地位,但多数算法依赖于需在每次更新时重新生成轨迹的在线策略训练,这限制了效率与可扩展性。异步强化学习系统通过解耦轨迹生成与训练环节缓解了这一问题,然而其效能取决于对轨迹数据高度陈旧性的容忍度,在此情境下,现有方法要么性能下降,要么完全失效。我们重新审视这一挑战,揭示了一种“繁荣至崩溃”现象:若妥善利用,陈旧数据可如同在线策略数据一样富含信息。基于这一洞见,我们提出了M2PO(二阶矩信任策略优化),它通过约束重要性权重的二阶矩,仅抑制极端异常值,同时保留信息丰富的更新。值得注意的是,M2PO在高陈旧性条件下显著减少了被裁剪标记的比例(训练过程中从1.22%降至0.06%),精准屏蔽高方差标记的同时保持了优化的稳定性。在六个模型(从17亿到320亿参数)和八个基准上的广泛评估表明,M2PO即便在数据陈旧度至少达到256次模型更新的情况下,也能实现稳定的离线策略训练,并匹敌在线策略的性能。
近期研究表明,大型语言模型(LLMs)不仅能够通过显式的思维链步骤进行离散推理,这一过程受限于自然语言的边界,还能在潜在空间中实现连续推理,从而在每一步中蕴含更丰富的信息,进而提升令牌效率。尽管这一前景令人鼓舞,潜在推理在无需额外训练的场景下仍面临两大挑战:其一,纯粹的潜在推理通过维持多条隐含路径扩展了搜索分布,导致概率质量分散,引入噪声,并阻碍向单一高置信度解的收敛,从而损害了准确性;其二,即便没有显式文本,过度思考现象依然存在,浪费令牌并降低效率。为解决这些问题,我们提出了SwiReasoning,一个无需训练的LLM推理框架,其核心创新点包括:1)SwiReasoning根据下一令牌分布的熵趋势估计的块级置信度,动态切换显式与潜在推理,以平衡探索与利用,促进及时收敛;2)通过限制思维块切换的最大次数,SwiReasoning有效抑制了过度思考,并在不同难度的问题上提升了令牌效率。在广泛使用的数学及STEM基准测试中,SwiReasoning持续提升了不同模型家族和规模推理LLMs的平均准确率1.5%-2.8%。此外,在预算受限的情况下,SwiReasoning将平均令牌效率提高了56%-79%,且随着预算收紧,提升幅度更大。
近期,大规模生成模型在图像编辑和上下文图像生成方面取得了显著进展,然而在确保物理一致性方面仍存在关键缺口,即编辑后的物体必须保持连贯性。这一能力对于世界模拟相关任务尤为重要。本文提出ChronoEdit框架,将图像编辑重新定义为视频生成问题。首先,ChronoEdit将输入图像和编辑后的图像视为视频的首尾帧,从而能够利用预训练的大型视频生成模型,这些模型不仅捕捉物体外观,还通过习得的时间一致性隐含了运动和交互的物理规律。其次,ChronoEdit引入了一个时间推理阶段,在推理时显式执行编辑。在此设置下,目标帧与推理标记共同去噪,以构想出合理的编辑轨迹,将解空间约束在物理可行的变换范围内。推理标记在几步后被丢弃,以避免渲染完整视频的高计算成本。为验证ChronoEdit,我们引入了PBench-Edit,这是一个针对需要物理一致性场景的新图像-提示对基准测试,并展示了ChronoEdit在视觉保真度和物理合理性上均超越了现有最先进的基线方法。ChronoEdit的14B和2B版本的代码和模型将在项目页面上发布:https://research.nvidia.com/labs/toronto-ai/chronoedit。
大型语言模型(LLMs)正越来越多地通过长链思维解决复杂推理任务,但其仅前向的自回归生成过程存在脆弱性;早期的令牌错误可能引发连锁反应,这凸显了对自我反思机制的需求。然而,现有的自我反思要么是对完整草稿进行修订,要么通过昂贵的训练学习自我纠正,这两种方式本质上都是被动且低效的。针对这一问题,我们提出了测试时自我反思生成(SRGen),这是一个轻量级的测试时框架,在不确定点生成前进行反思。在令牌生成过程中,SRGen利用动态熵阈值识别高不确定性令牌。对于每个识别出的令牌,它训练一个特定的纠正向量,充分利用已生成的上下文进行自我反思生成,以修正令牌概率分布。通过回顾性分析部分输出,这种自我反思能够做出更可信的决策,从而显著降低在高度不确定点出错的概率。在具有挑战性的数学推理基准测试和多种LLMs上的评估表明,SRGen能够持续增强模型推理能力:单次通过质量的提升也转化为更强的自一致性投票。特别是在AIME2024上使用DeepSeek-R1-Distill-Qwen-7B时,SRGen在Pass@1上带来了+12.0%的绝对提升,在Cons@5上提升了+13.3%。此外,我们的研究将SRGen定位为一种即插即用的方法,它将反思整合到生成过程中,以实现可靠的LLM推理,在有限的开销下实现一致的性能提升,并与其他训练时(如RLHF)和测试时(如SLOT)技术广泛兼容。
计算机使用代理(CUAs)需要在多样化且不断变化的应用环境中规划任务流程,但学习过程因目标应用领域缺乏大规模、高质量的训练数据而受阻。现有数据集局限于特定领域、静态且标注成本高昂,而当前的合成数据生成方法往往产生过于简化或与任务不匹配的演示。为解决这些限制,我们引入了“观察与学习”(W&L)框架,该框架能够将互联网上易得的人类演示视频大规模转化为可执行的用户界面轨迹。不同于直接生成轨迹或依赖临时推理启发式方法,我们将问题转化为逆动力学目标:从连续的屏幕状态预测用户操作。这一表述减少了人工工程需求,更易于学习,并能更稳健地跨应用泛化。具体而言,我们开发了一个包含任务感知视频检索的逆动力学标注流程,从原始网络视频中生成了超过53,000条高质量轨迹,并证明这些轨迹无论是作为上下文演示还是监督训练数据,均能有效提升CUAs性能。在具有挑战性的OSWorld基准测试中,通过W&L提取的用户界面轨迹持续增强了通用框架及最先进框架的上下文表现,并在监督训练下为开源模型带来了更显著的性能提升。这些成果表明,基于网络规模的人类演示视频是推动CUAs迈向实际部署的一个实用且可扩展的基础。
在软件开发中,AI驱动的代码补全工具的应用已显著增加,然而这些系统产生的用户交互数据仍被大型企业所独占。这为学术界设置了障碍,因为研究人员往往需要开发专用平台来开展人机交互研究,使得可重复研究和大规模数据分析难以实现。针对这一局限,我们推出了Code4MeV2,一个面向研究的开源代码补全插件,专为JetBrains集成开发环境设计。Code4MeV2采用客户端-服务器架构,集成了行内代码补全和上下文感知的聊天助手功能。其核心贡献在于一个模块化且透明的数据收集框架,赋予研究人员对遥测和上下文收集的精细控制。在代码补全性能上,Code4MeV2达到了与业界相当的水平,平均延迟仅为200毫秒。我们通过专家评估和一项包含八名参与者的用户研究来评估该工具。来自研究人员和日常用户的反馈均强调了其信息丰富性和实用性。我们诚邀社区采纳并为此工具贡献力量。更多关于该工具的信息,请访问https://app.code4me.me。
设想憨豆先生闯入《猫和老鼠》的世界——我们能否生成角色在不同宇宙间自然互动的视频?我们研究了文本到视频生成中的跨角色互动,其核心挑战在于保持每个角色的身份特征与行为逻辑的同时,实现跨情境的连贯互动。这一任务颇具难度,因为角色可能从未共存过,且风格混搭常导致风格失真,使写实角色显得卡通化,反之亦然。为此,我们提出了一种框架,通过跨角色嵌入(CCE)学习多模态源中的身份与行为逻辑,以及跨角色增强(CCA)利用合成的共存与混合风格数据丰富训练。这些技术共同作用,使得原本不共存的角色能够自然互动,同时不失风格保真度。在一项包含10个角色的卡通与实拍剧集精选基准测试中,实验结果显示在身份保持、互动质量及对风格失真的鲁棒性方面均有显著提升,为生成式叙事开辟了新途径。更多成果与视频请访问我们的项目页面:https://tingtingliao.github.io/mimix/。
自然语言处理(NLP)的社会影响日益显著,社区对“NLP助力社会公益”(NLP4SG)相关倡议的关注度持续上升。事实上,近年来,ACL文集中近20%的论文涉及联合国可持续发展目标定义的社会公益议题(Adauto等,2023)。本研究从作者和会议层面的视角出发,描绘了NLP4SG的版图,量化了在ACL社区内外、由核心ACL贡献者与非ACL作者共同完成的社会公益相关工作的比例。通过这一方法,我们揭示了关于NLP4SG版图的两个令人惊讶的事实。首先,ACL作者在ACL以外的会议发表时,显著更倾向于从事与社会公益相关的工作。其次,绝大多数运用NLP技术解决社会公益问题的出版物,是由非ACL作者在ACL以外的会议中完成的。我们探讨了这些发现对ACL社区在NLP4SG相关议程设定上的启示。
大型语言模型(LLMs)在形式定理证明领域展现出显著潜力,但其普遍性不足,且对问题陈述的微小变换极为敏感。为克服这一局限,我们引入了一种新颖的数据增强流程,旨在从对称性与难度两个维度提升模型鲁棒性。在对称性方面,我们提出了两种互补方法:EvolAST,一种基于抽象语法树(AST)的技术,通过瞄准句法对称性生成语义等价的问题变体;以及EvolDomain,它利用LLMs跨越数学领域翻译定理,以处理语义对称性。在难度层面,我们设计了EvolDifficulty,运用精心构造的进化指令引导LLMs生成难度范围更广的新定理。随后,我们利用这些进化数据训练了EvolProver,一个拥有70亿参数的非推理定理证明器。EvolProver在FormalMATH-Lite上以53.8%的pass@32率创下新纪录,超越了所有规模相当的模型,包括基于推理的模型。同时,它还在MiniF2F-Test(69.8% pass@32)、Ineq-Comp-Seed(52.2% pass@32)及Ineq-Comp-Transformed(34.0% pass@32)上为非推理模型设立了新的标杆。消融研究进一步验证了我们的数据增强流程在多个基准测试中的有效性。
4D高斯溅射作为一种动态场景表示的新范式,能够实现复杂运动场景的实时渲染。然而,它面临着一个主要挑战——存储开销问题,因为高保真重建需要数百万个高斯分布。尽管已有若干研究尝试减轻这一内存负担,但在压缩率或视觉质量方面仍存在局限。在本研究中,我们提出了OMG4(优化的最小4D高斯溅射),该框架构建了一组紧凑的显著高斯分布,能够忠实表示4D高斯模型。我们的方法通过三个阶段逐步修剪高斯分布:(1) 高斯采样,识别对重建保真度至关重要的基元;(2) 高斯修剪,去除冗余;(3) 高斯合并,融合具有相似特性的基元。此外,我们集成了隐式外观压缩,并将子向量量化(SVQ)推广至4D表示,在保持质量的同时进一步减少存储需求。在标准基准数据集上的大量实验表明,OMG4显著优于最新的先进方法,在保持重建质量的同时,模型大小减少了60%以上。这些成果标志着OMG4在紧凑4D场景表示方面迈出了重要一步,为广泛的应用开辟了新的可能性。我们的源代码可在https://minshirley.github.io/OMG4/获取。
大规模文本到图像扩散模型已成为现代图像编辑的核心技术,然而仅凭文本提示无法充分掌控编辑过程。其中,两个特性尤为关键:解耦性,即改变某一属性时不会无意中影响其他属性;以及连续性控制,即编辑强度能够平滑调节。我们提出了一种通过对文本嵌入进行词元级操作来实现解耦与连续编辑的方法。编辑通过沿精心选择的方向操控嵌入向量来实施,这些方向控制着目标属性的强度。为识别此类方向,我们采用稀疏自编码器(SAE),其稀疏潜在空间揭示了语义上孤立的维度。我们的方法直接在文本嵌入上操作,无需改动扩散过程,使其与模型无关,并广泛适用于多种图像合成框架。实验表明,该方法能够在多种属性和领域中实现直观且高效的连续控制操作。
大型语言模型(LLMs)近期在视听语音识别(AVSR)领域展现出显著潜力,但其高计算需求及对令牌粒度的敏感性限制了其在资源受限环境中的实用性。令牌压缩方法虽能降低推理成本,却需预先固定压缩率并生成单一固定长度输出,无法在推理时灵活平衡信息密度与效率。套娃表示学习(MRL)通过使单一模型适应多种令牌粒度,实现了压缩率的动态调整,从而解决了这一问题。然而,现有基于MRL的方法在训练时独立处理各尺度,限制了跨尺度泛化能力、高压缩下的鲁棒性及可解释性。为克服这些局限,我们提出MoME(套娃专家混合),一种将稀疏专家混合(MoE)融入基于MRL的LLMs用于AVSR的新框架。MoME通过引入top-k路由与共享专家,增强了冻结LLM,实现了跨尺度与模态的动态容量分配。共享路由器促进了不同粒度间专家激活的一致性,使压缩序列能受益于低压缩下学到的表示。在LRS2和LRS3上的实验表明,MoME在AVSR、ASR及VSR任务中均达到最先进性能,同时显著减少参数需求并在噪声环境下保持鲁棒性。MoME将MRL的适应性与MoE的效率统一,为资源感知的语音识别提供了一个可扩展且可解释的解决方案。
强化学习(RL)已成为提升大型语言模型(LLMs)推理能力的核心方法。然而,诸如群体相对策略优化(GRPO)等在线策略算法在训练初期常面临挑战:低质量探索产生的噪声梯度导致更新不稳定和探索效率低下。为此,我们提出了慢快策略优化(SFPO),这一简洁高效的框架通过将每一步分解为三个阶段来应对这些局限:同一批次内的短快轨迹内步、控制离策略漂移的重定位机制,以及最终的慢速校正。这种“先重定位后更新”的设计保持了目标和探索过程不变,使SFPO能够即插即用地兼容现有的策略梯度流程。大量实验表明,SFPO持续提升了训练稳定性,减少了探索次数,并加速了推理强化学习的收敛速度。具体而言,在数学推理基准测试中,SFPO平均得分比GRPO高出最多2.80分。同时,它仅需比GRPO达到最佳精度少4.93次探索,并节省了4.19倍的墙上时钟时间。
流畅的语音交互需要可靠且低延迟地检测用户何时结束发言。传统的音频静音端点检测方法会引入数百毫秒的延迟,且在犹豫或特定语言现象下表现不佳。据我们所知,我们首次系统性地研究了面向实时智能体的泰语纯文本话轮结束(EOT)检测。我们对比了紧凑型大语言模型的零样本与少样本提示方法,以及轻量级Transformer模型的监督微调。利用YODAS语料库中的转录字幕和泰语特有的语言线索(如句末助词),我们将EOT问题转化为对词元边界的二元决策。我们报告了明显的准确率-延迟权衡,并提供了一个可直接公开使用的实施方案。本研究确立了泰语EOT检测的基准,并证明经过微调的小型模型能够提供近乎即时的话轮结束判断,适用于设备端智能体。
尽管多语言自动语音识别(ASR)技术已取得显著进展,但语码转换(CS)——即日常对话中常见的语言混合现象——仍是一个被严重忽视的挑战。本文介绍了HiKE:层次化韩英语码转换基准,这是首个全球可访问的韩英语码转换评估框架,旨在为多语言ASR模型提供精确的评估手段,并推动该领域的研究。所提出的框架不仅包含跨主题的高质量、自然语码转换数据,还提供了细致的借词标签及层次化的语码转换级别标注方案(词、短语、句子),共同支持对模型处理各层次语码转换能力的系统性评估。通过对多种多语言ASR模型的评估及微调实验,本文表明,尽管大多数多语言ASR模型在初始阶段难以应对CS-ASR任务,但通过使用CS数据进行微调,这一能力可以得到显著提升。HiKE框架将在https://github.com/ThetaOne-AI/HiKE 上公开提供。
将自然语言问题转换为SQL查询(Text-to-SQL)使非专业用户能够与关系数据库交互,这一直是数据自然语言接口的核心任务。尽管WikiSQL数据集在早期NL2SQL研究中发挥了关键作用,但由于结构和标注问题,包括大小写敏感性不一致、数据类型不匹配、语法错误和未回答问题,其使用率已下降。我们提出了LLMSQL,这是为LLM时代设计的WikiSQL的系统性修订和转换版本。我们对这些错误进行了分类,并实施了自动化的清洗和重新标注方法。为了评估这些改进的影响,我们评估了多个大型语言模型(LLMs),包括Gemma 3、LLaMA 3.2、Mistral 7B、gpt-oss 20B、Phi-3.5 Mini、Qwen 2.5、OpenAI o4-mini、DeepSeek R1等。LLMSQL并非作为更新版本推出,而是作为一个LLM就绪的基准:与最初为指针网络模型从输入中选择令牌而设计的WikiSQL不同,LLMSQL提供了干净的自然语言问题和完整的SQL查询作为纯文本,使得现代自然语言到SQL模型的生成和评估变得直接明了。
基于扩散的大型语言模型(dLLMs)经过灵活训练,能够有效建模数据分布中的极端依赖性;然而,在推理阶段如何最佳利用这一信息仍是一个开放性问题。本研究中,我们揭示了这些模型的一个有趣特性:在文本数据上训练的dLLMs隐式学习了一组半自回归专家的混合体,不同的生成顺序展现出不同的专门化行为。我们发现,采用单一固定的推理时间调度这一常见做法,因未能利用这一潜在集成,导致性能显著下降。为此,我们提出了HEX(用于测试时扩展的隐藏半自回归专家集成),一种无需额外训练的推理方法,通过跨异构块调度进行集成。通过对多样块大小生成路径进行多数表决,HEX稳健地避免了与任何单一固定调度相关的失败模式。在GSM8K等推理基准测试中,HEX将准确率提升高达3.56倍(从24.72%提升至88.10%),超越了Top-K边缘推理及如GRPO等专门微调方法,且无需额外训练。HEX还在MATH基准上实现了从16.40%到40.00%的显著提升,在ARC-C的科学推理任务中从54.18%提升至87.80%,在TruthfulQA上从28.36%提升至57.46%。我们的研究结果为基于扩散的LLMs(dLLMs)的测试时扩展确立了新范式,揭示了掩码执行顺序在推理性能中扮演的关键角色。
随着大型语言模型(LLM)代理逐渐获得自我进化能力,能够通过现实世界互动适应并优化其策略,其长期可靠性成为一个关键问题。我们识别出“对齐临界过程”(Alignment Tipping Process, ATP),这是自我进化LLM代理在部署后特有的重大风险。与训练阶段的失败不同,ATP发生在持续互动促使代理放弃训练期间建立的对齐约束,转而采用强化后的自利策略时。我们通过两种互补范式形式化并分析ATP:一是“自利探索”,即重复的高回报偏差导致个体行为漂移;二是“模仿策略扩散”,即偏差行为在多代理系统中传播。基于这些范式,我们构建了可控测试环境,并对Qwen3-8B和Llama-3.1-8B-Instruct进行了基准测试。实验表明,在自我进化下,对齐优势迅速消减,初始对齐的模型趋向于非对齐状态。在多代理场景中,成功的违规行为迅速扩散,导致集体失准。此外,当前基于强化学习的对齐方法仅能提供脆弱的防御,难以抵御对齐临界。这些发现共同表明,LLM代理的对齐并非静态属性,而是一种脆弱且动态的特性,在部署过程中易受反馈驱动的衰减影响。我们的数据和代码可在https://github.com/aiming-lab/ATP获取。
专家混合(Mixture-of-Experts, MoE)架构已成为扩展现代大语言模型(LLMs)的关键,然而,其稀疏路由机制如何响应多语言数据却鲜为人知。本研究通过分析并行多语言数据集中的专家路由模式,揭示了高度可解释的层级现象。我们发现,MoE模型在解码器的早期和晚期层中以语言特定的方式路由标记,但在中间层展现出显著的跨语言路由一致性,这与在密集LLMs中观察到的参数共享趋势相呼应。特别是,我们揭示了一个明确且强烈的相关性:模型在某一语言中的表现与其标记在这些层中与英语路由的相似程度密切相关。超越相关性分析,我们探索了在推理时干预以增强跨语言路由一致性的方法。我们提出了一种通过促进在英语中频繁激活的中间层任务专家来引导路由器的策略,该策略成功提升了多语言性能。这些1-2%的性能提升在两项评估任务、三种模型及超过15种语言中表现出惊人的一致性,尤其是考虑到这些简单干预覆盖了经过广泛训练、处于领先水平的LLMs的路由器。相比之下,在中间层之外进行干预或针对多语言专用专家的尝试仅导致性能下降。总之,我们呈现了多项发现,解释了MoE如何处理非英语文本,并证明模型的泛化能力受限于其能否在所有语言中利用语言通用专家。
人类擅长在工作中学习:我们边做边学,逐步掌握如何解决面临的任务。那么,模型能否同样做到这一点?我们提出了一种能够构建任务特定课程(称为测试时课程,TTC-RL)的智能体,并应用强化学习持续针对目标任务训练模型。测试时课程通过自动从大量可用训练数据中选取与任务最相关的数据,避免了耗时的人工数据集整理。我们的实验表明,基于测试时课程的强化学习在各种评估和模型上均能持续提升模型在目标任务上的表现。特别是在具有挑战性的数学和编程基准测试中,TTC-RL将Qwen3-8B在AIME25上的pass@1提升了约1.8倍,在CodeElo上提升了2.1倍。此外,我们发现TTC-RL显著提高了模型的性能上限,使AIME25上的pass@8从40%提升至62%,CodeElo上的pass@8从28%提升至43%。我们的研究揭示了测试时课程在将测试时扩展范式延伸至测试期间对数千项任务相关经验进行持续训练中的潜力。
随着系统向超级智能发展,一个自然的建模前提是:智能体能够在自身设计的各个维度上进行自我改进。我们通过五轴分解和决策层对此进行了形式化,将激励与学习行为分离,并单独分析各轴。我们的核心成果揭示并引入了一种尖锐的效用-学习张力,即在自我修改系统中,旨在提升即时或预期性能的效用驱动改变,也可能削弱可靠学习与泛化的统计前提条件。研究发现,当且仅当策略可达的模型族具有一致的能力上限时,分布无关的保证才得以保留;若能力可无限增长,基于效用理性的自我改变可能使原本可学习的任务变得不可学习。在实践中的标准假设下,这些轴归结为同一能力准则,从而为安全的自我修改划定了一条单一界限。跨多个轴的数值实验通过对比破坏性效用策略与我们提出的保持可学习性的双门策略,验证了该理论。
大型语言模型(LLMs)倾向于生成在词汇、语义及风格上同质化的文本。这种现象可能导致知识塌缩,即随着时间的推移,同质化的LLMs会缩小可获取信息的范围。现有关于同质化的研究多局限于封闭式选择题设置或模糊的语义特征,且未考察跨时间和文化背景的趋势。为克服这一局限,我们提出了一种新方法来衡量认知多样性,即LLM输出中关于现实世界主张的差异性,并借此对LLM知识塌缩进行了广泛的实证研究。我们测试了27个LLMs,涵盖12个国家的155个主题,以及源自真实用户对话的200种提示变体。研究表明,尽管新模型倾向于生成更多样化的主张,但几乎所有模型的认知多样性均不及基本的网络搜索。我们发现,模型规模对认知多样性有负面影响,而检索增强生成(RAG)则具有正面影响,尽管RAG带来的改善程度因文化背景而异。最后,与传统知识源(如维基百科)相比,特定国家的主张更多地反映了英语而非当地语言,凸显了认知代表性上的差距。
我们推出Paris,这是首个完全通过去中心化计算预训练并公开发布的扩散模型。Paris证明了高质量文本到图像生成无需中心化协调的基础设施即可实现。Paris开放供研究和商业使用。Paris的开发需要我们从头实现分布式扩散训练框架。该模型由8个专家扩散模型组成(每个模型参数规模在1.29亿至6.05亿之间),这些模型在完全隔离的环境中训练,无需梯度、参数或中间激活的同步。不同于要求数千个GPU间同步梯度更新,我们将数据划分为语义连贯的集群,每个专家独立优化其子集,同时共同逼近完整分布。一个轻量级Transformer路由器在推理时动态选择适当的专家,实现了与中心化协调基线相当的生成质量。消除同步需求使得训练能在异构硬件上进行,无需专用互连。实证验证表明,Paris的去中心化训练在保持生成质量的同时,消除了大规模扩散模型对专用GPU集群的需求。Paris仅使用了之前去中心化基线14分之一的训练数据和16分之一的计算资源,便达成了这一成就。
关于大型语言模型(LLMs)隐私风险的讨论,过度集中于训练数据的逐字记忆问题,而一系列更为紧迫且可扩展的隐私威胁却未得到充分探索。本立场文件主张,LLM系统的隐私图景远不止于训练数据提取,它涵盖了数据收集实践、推理时上下文泄露、自主代理能力,以及通过深度推理攻击实现监控民主化所带来的风险。我们提出了一套贯穿LLM生命周期——从数据收集到部署——的隐私风险全面分类体系,并通过案例研究展示了当前隐私框架如何未能应对这些多方面的威胁。通过对过去十年(2016-2025)在顶级会议上发表的1,322篇AI/ML隐私论文进行纵向分析,我们发现,尽管记忆问题在技术研究中获得了不成比例的关注,但最紧迫的隐私危害却存在于其他领域,当前的技术手段在此几乎无计可施,可行的前进路径仍不明朗。我们呼吁研究界从根本上转变对LLM隐私的应对方式,超越现有技术解决方案的狭隘视野,采纳跨学科方法,以应对这些新兴威胁的社会技术本质。
基于大语言模型(LLM)的多智能体系统在规划、工具使用和角色协调方面表现出色,但其开放性和交互复杂性也使其易受越狱攻击、提示注入和对抗性协作的影响。现有防御措施主要分为两类:(i) 自我验证,即在执行前要求每个智能体预先过滤不安全指令;(ii) 外部防护模块,用于监控行为。前者往往效果不佳,因为单个智能体缺乏足够能力来检测跨智能体的不安全链和委托引发的风险;后者则增加了系统开销,并形成单点故障——一旦被攻破,整个系统的安全性将崩溃,而增加更多防护模块又会加剧成本和复杂性。为解决这些挑战,我们提出了AdvEvo-MARL,一种将安全性内化于任务智能体的协同进化多智能体强化学习框架。AdvEvo-MARL不依赖外部防护,而是在对抗学习环境中联合优化攻击者(生成不断演变的越狱提示)和防御者(训练任务智能体既完成任务又抵御攻击)。为稳定学习并促进协作,我们引入了一个公共基线用于优势估计:同一功能组内的智能体共享一个组级平均回报基线,从而实现更低方差的更新和更强的组内协调。在代表性攻击场景中,AdvEvo-MARL始终将攻击成功率(ASR)保持在20%以下,而基线方法最高可达38.33%,同时保持——有时甚至提升——任务准确率(在推理任务上最高提升+3.67%)。这些结果表明,无需依赖额外的防护智能体或增加系统开销,安全性和实用性可以共同提升。
随着多模态大语言模型(LLM)驱动的智能体在自主性和泛化能力上的持续进步,基于静态数据集的评估已无法充分衡量其在动态环境及多样化任务中的真实能力。现有的LLM合成数据方法主要针对LLM的训练与评估设计,因此难以直接应用于需要工具使用和交互能力的智能体任务。尽管近期研究探索了利用LLM自动生成智能体任务,但多数工作仍局限于文本或图像分析,未能系统性地模拟网络环境中的多步交互。为应对这些挑战,我们提出了Graph2Eval,一个基于知识图谱的框架,能够自动生成多模态文档理解任务和网络交互任务,从而全面评估智能体的推理、协作及交互能力。在我们的方法中,从多源外部数据构建的知识图谱作为任务空间,通过子图采样、任务模板和元路径将语义关系转化为结构化的多模态任务。基于节点可达性、LLM评分和相似性分析的多阶段过滤管道被用于确保生成任务的质量与可执行性。此外,Graph2Eval支持对多种智能体类型(单智能体、多智能体、网络智能体)进行端到端评估,并衡量其推理、协作和交互能力。我们通过Graph2Eval-Bench实例化了该框架,这是一个包含1,319个任务的精选数据集,覆盖文档理解与网络交互场景。实验表明,Graph2Eval高效生成的任务能够区分智能体与模型的性能,揭示不同设置下在推理、协作及网络交互方面的差距,为智能体评估提供了新的视角。
幂变换是一种常用的参数化技术,旨在使数据更接近高斯分布,在统计分析和机器学习中作为预处理步骤被广泛应用。然而,我们发现幂变换的直接实现存在严重的数值不稳定性,可能导致错误结果甚至系统崩溃。本文深入分析了这些不稳定性的根源,并提出了有效的解决方案。此外,我们将幂变换扩展到联邦学习场景,解决了该环境下出现的数值和分布挑战。在真实数据集上的实验表明,我们的方法既有效又稳健,与现有方法相比显著提升了稳定性。
接收者操作特征(ROC)曲线与精确率-召回率(PR)曲线是评估机器学习分类器的基本工具,它们深入揭示了真阳性率与假阳性率(ROC)或精确率与召回率(PR)之间的权衡关系。然而,在联邦学习(FL)场景中,数据分布于多个客户端之间,由于隐私保护和通信限制,计算这些曲线面临挑战。具体而言,服务器无法访问原始预测分数和类别标签,而这些在集中式设置中用于计算ROC和PR曲线。本文提出了一种新颖的方法,在联邦学习环境下通过估计预测分数分布的分布式差分隐私分位数来近似ROC和PR曲线。我们为真实曲线与估计曲线之间的面积误差(AE)提供了理论界限,展示了近似精度、隐私保护与通信成本之间的权衡。基于真实世界数据集的实证结果表明,我们的方法在最小化通信和确保强隐私保护的同时,实现了高精度的近似,使其成为联邦系统中隐私保护模型评估的实用方案。
我们发布了Code World Model(CWM),这是一个拥有320亿参数的开源权重大语言模型,旨在推动基于世界模型的代码生成研究。为了超越仅通过静态代码训练所能达到的代码理解水平,我们对CWM进行了中期训练,使用了大量来自Python解释器和自主Docker环境的观察-行动轨迹数据,并在可验证编码、数学以及多轮软件工程环境中进行了广泛的多任务推理强化学习。通过CWM,我们为研究人员提供了一个强大的测试平台,以探索世界模型在计算环境中通过推理和规划改进代码生成所带来的机遇。我们展示了世界模型如何助力自主编码、实现Python代码执行的逐步模拟,并初步揭示了推理如何从后者中获益。CWM是一个密集的、仅解码器架构的大语言模型,训练时上下文长度可达131k个token。即便不考虑其世界建模能力,CWM在通用编码和数学任务上也表现出色:在SWE-bench Verified(含测试时扩展)上达到65.8%的pass@1分数,在LiveCodeBench上为68.6%,在Math-500上高达96.6%,在AIME 2024上则为76.0%。为了支持代码世界建模的进一步研究,我们发布了中期训练、监督微调(SFT)和强化学习(RL)后的模型检查点。