每日精选AI研究论文及翻译
我们推出Apriel-1.5-15B-Thinker,这是一个拥有150亿参数的开源权重多模态推理模型,通过精心设计的训练而非单纯规模扩展,实现了前沿性能。基于Pixtral-12B,我们采用渐进式三阶段方法:(1)深度扩展,无需从头预训练即可提升推理能力;(2)分阶段持续预训练,首先建立基础文本与视觉理解,随后通过针对空间结构、组合理解及细粒度感知的合成数据生成,强化视觉推理;(3)高质量纯文本监督微调,使用涵盖数学、编程、科学及工具使用的精选指令-响应对,并包含显式推理轨迹。值得注意的是,我们的模型在未使用强化学习或偏好优化的情况下取得竞争性成果,凸显了数据为中心的持续预训练策略的贡献。在Artificial Analysis智能指数上,Apriel-1.5-15B-Thinker获得52分,与DeepSeek-R1-0528持平,却显著减少了计算资源需求。在十项图像基准测试中,其表现平均与Gemini-2.5-Flash和Claude Sonnet-3.7相差不到五分,这对于单GPU部署限制下的模型而言,是一项关键成就。我们的结果表明,深思熟虑的中期训练设计能够在不依赖大规模扩展的情况下弥合显著能力差距,使资源有限的组织也能触及前沿多模态推理。我们根据MIT许可证发布模型检查点、所有训练配方及评估协议,以推动开源研究发展。
大型推理模型(LRMs)通过生成结构化的思维链(CoT)来“思考”,然后得出最终答案,但它们仍缺乏对安全对齐进行批判性推理的能力,并且在思维过程中注入错误前提时容易产生偏见。我们提出了RECAP(通过反对齐预填充实现鲁棒安全对齐),这是一种原则性的强化学习(RL)方法,用于后训练阶段,明确教导模型覆盖错误的推理轨迹,并重新导向安全且有益的响应。RECAP在合成生成的反对齐CoT预填充和标准提示的混合数据上进行训练,无需额外训练成本或超越基于人类反馈的强化学习(RLHF)的修改,显著提升了安全性和抗越狱鲁棒性,减少了过度拒绝,并保留了核心推理能力——所有这些都在保持推理令牌预算的前提下实现。深入分析表明,经过RECAP训练的模型更频繁地进行自我反思,并在自适应攻击下保持鲁棒性,即使在多次尝试覆盖其推理后仍能保持安全性。
在多模态大模型(MLLMs)中,视觉标记消耗了大量计算资源,显著影响了模型效率。近期研究尝试通过在训练过程中压缩视觉标记来提升效率,方法包括修改模型组件或引入额外参数。然而,这些方法往往忽视了压缩带来的学习难度增加,因为模型参数空间难以快速适应由标记压缩引起的特征空间显著扰动。在本研究中,我们提出通过渐进一致性蒸馏(EPIC)开发高效MLLMs,这是一种渐进式学习框架。具体而言,通过沿标记维度和层级维度分解由标记压缩引入的特征空间扰动,我们分别引入了标记一致性蒸馏和层级一致性蒸馏,旨在借助教师模型的指导并遵循渐进学习轨迹,降低训练难度。大量实验验证了我们提出框架在有效性、鲁棒性和泛化能力方面的卓越表现。
深度研究已彻底革新了数据分析领域,然而数据科学家们仍需投入大量时间手动构建可视化图表,这凸显了从自然语言查询实现强大自动化的迫切需求。然而,现有系统在处理包含多个文件及需迭代优化的复杂数据集时仍面临挑战。现有方法,包括简单的单代理或多代理系统,往往过于简化任务,仅关注初始查询解析,而未能有效应对数据复杂性、代码错误或最终可视化质量等问题。本文中,我们将这一挑战重新定义为协作式多代理问题,并引入CoDA——一个采用专门LLM代理进行元数据分析、任务规划、代码生成及自我反思的多代理系统。我们形式化了这一流程,展示了以元数据为核心的分析如何突破令牌限制,以及质量驱动的优化如何确保系统的鲁棒性。大量评估表明,CoDA在综合评分上取得显著提升,较竞争基线最高超出41.5%。本研究表明,可视化自动化的未来不在于孤立的代码生成,而在于集成、协作的代理工作流。
对话式口语语言模型(SLMs)正逐渐成为实时语音交互领域的一个有前景的范式。然而,它们在时间动态性方面的能力,包括对时机、节奏和同时发言的管理,仍然是对话流畅性中一个关键且尚未充分评估的挑战。为填补这一空白,我们引入了“游戏时间基准”(Game-Time Benchmark),这是一个系统评估这些时间能力的框架。受人类通过语言活动学习语言的启发,游戏时间基准包含基本的指令跟随任务和具有时间约束的高级任务,如节奏遵循和同步响应。我们对多种SLM架构的评估揭示了明显的性能差异:虽然最先进的模型在基本任务上表现良好,但许多现有系统在基本的指令跟随上仍存在困难。更为关键的是,几乎所有模型在时间约束下性能大幅下降,暴露出在时间意识和全双工交互方面的持续弱点。游戏时间基准为引导未来研究朝着更具时间意识的对话式AI发展提供了基础。演示和数据集可在我们的项目网站https://ga642381.github.io/Game-Time获取。
近期,硬件加速的微缩4位浮点格式(如MXFP4和NVFP4)在NVIDIA和AMD GPU上得到支持,预示着将彻底改变大规模语言模型(LLM)的推理效率。然而,其实际效益尚未得到验证。我们首次对MXFP4和NVFP4在训练后量化中的应用进行了全面研究,揭示了其承诺与现实性能之间的差距。分析表明,当前最先进的方法在处理FP4时面临两大挑战:(1) NVFP4的小组规模理论上抵消了传统的异常值缓解技术;(2) MXFP4的二次方比例量化因引入的高误差严重降低了精度。为弥合这一差距,我们提出了微旋转GPTQ(MR-GPTQ),这是经典GPTQ量化算法的变体,通过采用分块哈达玛变换和针对FP4特性的优化,定制了量化过程。我们通过一组高性能GPU内核支持这一方案,通过将旋转融合到权重中以及快速在线计算激活值,实现了MR-GPTQ格式的极低开销。这带来了与FP16相比,在NVIDIA B200上高达3.6倍的层级加速和2.2倍的端到端加速,在RTX5090上则分别达到6倍和4倍。广泛的实证评估显示,MR-GPTQ在精度上匹配甚至超越了现有技术,显著提升了MXFP4,使其接近NVFP4的水平。我们得出结论,虽然FP4并非INT4的自动升级,但像MR-GPTQ这样针对特定格式优化的方法,能够开启精度与性能权衡的新领域。
基于扩散模型的机器人控制方法,包括视觉-语言-动作(VLA)和视觉-动作(VA)策略,已展现出显著的能力。然而,其发展受到获取大规模交互数据集高成本的限制。本研究提出了一种无需额外模型训练即可提升策略性能的替代范式。令人惊讶的是,我们证明了组合策略能够超越任一父策略的性能。我们的贡献有三方面。首先,我们建立了理论基础,表明多个扩散模型分布评分的凸组合能够产生优于任何单一评分的一步功能目标。随后,利用Grönwall型界证明了这一单步改进能够贯穿整个生成轨迹,带来系统性性能提升。其次,基于这些结果,我们提出了通用策略组合(GPC),这是一种无需训练的方法,通过凸组合和测试时搜索结合多个预训练策略的分布评分来提升性能。GPC具有通用性,允许即插即用地组合异构策略,包括VA和VLA模型,以及基于扩散或流匹配的策略,无论其输入视觉模态如何。第三,我们提供了广泛的实证验证。在Robomimic、PushT和RoboTwin基准测试以及真实世界机器人评估中的实验证实,GPC在多样化任务中持续提升了性能和适应性。对替代组合算子和权重策略的进一步分析,为理解GPC成功的机制提供了洞见。这些结果确立了GPC作为一种简单而有效的方法,通过利用现有策略来提升控制性能。
近期,大型语言模型(LLMs)自我改进领域的进展显著提升了模型能力,且未大幅增加成本,尤其是在人力投入方面。尽管这一领域尚属年轻,但其向多模态领域的扩展展现出巨大潜力,能够利用多样化的数据源,开发出更具通用性的自我改进模型。本综述首次全面概述了多模态大型语言模型(MLLMs)中的自我改进研究。我们系统梳理了现有文献,并从三个角度探讨了相关方法:1)数据收集,2)数据组织,以及3)模型优化,以促进MLLMs自我改进技术的进一步发展。此外,我们还涵盖了常用的评估方法和下游应用。最后,我们总结了当前面临的开放挑战及未来研究方向。
大型语言模型(LLMs)的进步催生了一类新型自我进化智能体,它们通过与环境的交互自主提升,展现出强大的能力。然而,自我进化也带来了当前安全研究尚未关注的新风险。本文探讨了智能体自我进化偏离预期方向,导致不良甚至有害后果的情况,我们称之为“误进化”。为系统研究此现象,我们从模型、记忆、工具和工作流四个关键进化路径评估误进化。实证结果表明,误进化是一种普遍存在的风险,即便是基于顶尖LLMs(如Gemini-2.5-Pro)构建的智能体也难以幸免。在自我进化过程中,我们观察到多种新兴风险,例如记忆积累后安全对齐的退化,或工具创建与重用中无意引入的漏洞。据我们所知,这是首次系统化地概念化误进化并提供其发生实证的研究,凸显了对自我进化智能体构建新安全范式的迫切需求。最后,我们探讨了潜在的缓解策略,以激发构建更安全、更可信赖的自我进化智能体的进一步研究。我们的代码和数据可在https://github.com/ShaoShuai0605/Misevolution 获取。警告:本文包含可能具有冒犯性或有害性质的示例。
大型语言模型(LLMs)已成为解读多模态数据的强大工具。在医学领域,它们尤其展现出将大量临床信息综合为可操作见解和数字健康应用的潜力。然而,一个主要局限在于其无法有效处理时间序列数据。为填补这一空白,我们提出了OpenTSLM,这是一系列时间序列语言模型(TSLMs),通过将时间序列作为预训练LLMs的原生模态进行整合,使其能够对任意长度的多个时间序列进行推理。我们探索了OpenTSLM的两种架构。第一种,OpenTSLM-SoftPrompt,通过软提示将可学习的时间序列标记与文本标记隐式地连接起来,虽然参数效率高,但我们假设显式的时间序列建模具有更好的扩展性和性能。因此,我们引入了OpenTSLM-Flamingo,它通过交叉注意力机制将时间序列与文本融合。我们在一系列文本-时间序列链式思维(CoT)推理任务中,将这两种变体与将时间序列视为文本标记或图表的基线模型进行了对比。我们引入了三个数据集:HAR-CoT、Sleep-CoT和ECG-QA-CoT。在所有测试中,OpenTSLM模型均优于基线,在睡眠分期任务中达到69.9的F1分数,在HAR任务中达到65.4,而仅微调的纯文本模型分别为9.05和52.2。值得注意的是,即使是10亿参数的OpenTSLM模型也超越了GPT-4o(15.47和2.95)。OpenTSLM-Flamingo在性能上与OpenTSLM-SoftPrompt相当,并在处理更长序列时表现更优,同时保持稳定的内存需求。相比之下,SoftPrompt的内存需求随序列长度呈指数增长,在LLaMA-3B上训练ECG-QA时,约需110GB显存,而Flamingo仅需40GB。临床专家的评审表明,OpenTSLM在ECG-QA上展现出强大的推理能力。为促进进一步研究,我们开源了所有代码、数据集和模型。
稀疏自编码器(SAEs)是一种将神经网络激活分解为人类可解释特征的稀疏表示技术。然而,现有的SAEs存在特征吸收问题,即特定特征捕捉到通用特征的实例,导致表示空洞;以及特征组合问题,即独立特征融合为复合表示。在本研究中,我们提出了一种新颖的方法——正交稀疏自编码器(OrtSAE),旨在通过强制学习特征间的正交性来缓解这些问题。通过实施一种新的训练过程,该过程惩罚SAE特征间的高余弦相似度,OrtSAE促进了特征解耦的发展,同时其计算复杂度随SAE规模线性增长,避免了显著的计算开销。我们在不同模型和层次上训练OrtSAE,并与其他方法进行比较。结果表明,OrtSAE发现了更多(9%)的独特特征,减少了特征吸收(降低65%)和组合(降低15%),在去除虚假相关性任务上提升了6%的性能,并在其他下游任务中与传统SAEs保持相当的表现。
基于扩散模型的文本到图像(T2I)生成技术近期取得了显著进展,能够从文本提示中生成高质量图像。然而,确保生成图像与文本之间的精确对齐仍是当前顶尖扩散模型面临的一大挑战。为此,现有研究采用基于人类反馈的强化学习(RLHF)来使T2I输出更符合人类偏好。这些方法要么直接依赖于成对的图像偏好数据,要么需要一个学习得到的奖励函数,两者都严重依赖成本高昂、质量上乘的人工标注,因而在可扩展性上存在局限。本研究中,我们提出了文本偏好优化(TPO)框架,实现了无需成对图像偏好数据的“免费午餐”式T2I模型对齐。TPO通过训练模型偏好匹配的提示而非不匹配的提示来工作,其中不匹配提示是通过使用大型语言模型扰动原始描述构建的。我们的框架具有通用性,与现有的基于偏好的算法兼容。我们将DPO和KTO扩展至我们的设定中,分别得到TDPO和TKTO。在多个基准上的定量与定性评估表明,我们的方法持续超越原有版本,获得了更好的人类偏好评分和更优的文本到图像对齐效果。我们的开源代码可在https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment获取。
小型视觉语言模型(VLMs)为大规模模型提供了一种计算效率高的替代方案,但其代价是较弱的泛化能力和下游任务表现。这些不足可以通过测试时扩展技术来解决,但现有方法通常计算需求高,与小型模型资源高效的设计目标相矛盾。为应对这些局限,我们提出了两种新颖且高效的测试时扩展策略,它们利用模型内部特征而非外部监督:(i) 测试时增强(TTAug),通过生成多个增强输入并在无需参数更新的情况下在标记级别聚合输出;(ii) 测试时适应(TTAdapt),在推理过程中利用基于共识的伪标签从TTAug中调整模型参数。通过在九个基准上的广泛实验,我们展示了在保持适合资源受限环境计算效率的同时,实现了性能的持续提升。我们的方法在不同规模模型内部及跨不同VLMs之间无需额外调优的通用性也得到了验证。
大型语言模型(LLMs)的后期训练面临两大挑战:一是获取新知识或修正错误的高昂成本,二是重新训练时常伴随的意外副作用。为解决这些问题,我们提出了REPAIR(通过渐进式自适应干预与再整合实现稳健编辑),这是一个终身编辑框架,旨在支持精确且低成本的模型更新,同时保护非目标知识。REPAIR通过闭环反馈机制结合动态内存管理,缓解了大规模连续编辑中的不稳定性和冲突。此外,通过融入频繁的知识融合并实施严格的局部保护,REPAIR有效解决了传统分布无关方法常忽视的意外连锁反应问题。实验表明,REPAIR在多个模型家族中将编辑准确率提升了10%-30%,并显著减少了知识遗忘。本研究为开发可靠、可扩展且持续进化的大型语言模型引入了一个稳健的框架。
近年来,三维场景重建与新颖视角合成技术取得了飞速进展。神经辐射场(NeRF)展示了连续体积辐射场能够实现高质量的图像合成,但其漫长的训练与渲染时间限制了实际应用。三维高斯溅射(3DGS)通过用数百万个高斯分布表示场景,解决了这些问题,实现了实时渲染与快速优化。然而,高斯基元与虚拟现实头显及实时图形应用中基于网格的流程并不天然兼容。现有解决方案尝试通过后处理或两阶段流程将高斯分布转换为网格,这增加了复杂性并降低了视觉质量。在本研究中,我们提出了三角形溅射+(Triangle Splatting+),它直接在可微分的溅射框架内优化计算机图形学的基本基元——三角形。我们设计了三角形参数化方法,通过共享顶点实现连接性,并制定了一种训练策略,强制三角形不透明。最终输出无需后处理即可直接用于标准图形引擎。在Mip-NeRF360和Tanks & Temples数据集上的实验表明,Triangle Splatting+在基于网格的新颖视角合成中达到了最先进的性能。我们的方法在视觉保真度上超越了先前的溅射方法,同时保持了训练的高效与快速。此外,生成的半连接网格支持基于物理的模拟或交互式漫游等下游应用。项目页面为https://trianglesplatting2.github.io/trianglesplatting2/。
学术综述写作,作为将浩瀚文献提炼为连贯且富有洞察力叙述的过程,依然是一项劳动密集且智力要求极高的任务。尽管近期方法,如通用深度研究代理和综述专用技术,能够自动生成综述(即LLM4Survey),但其输出往往难以达到人类标准,且缺乏一个严谨、以读者为导向的基准来全面揭示其不足。为填补这一空白,我们提出了一个细粒度、测验驱动的评估框架SurveyBench,其特点包括:(1)从近期的11,343篇arXiv论文及对应的4,947篇高质量综述中选取典型主题;(2)一个多层面的指标层级,评估大纲质量(如覆盖广度、逻辑一致性)、内容质量(如综合粒度、见解清晰度)以及非文本丰富性;(3)一种双模式评估协议,包含基于内容的可回答性测试和基于测验的可回答性测试,明确与读者的信息需求对齐。结果表明,SurveyBench有效挑战了现有的LLM4Survey方法(例如,在基于内容的评估中平均比人类低21%)。
标准离散扩散模型将所有未观测状态统一映射到一个吸收性的[MASK]标记,这种做法在处理过程中形成了一个“信息真空”,即在去噪步骤之间,原本可以从未掩码标记推断出的语义信息丢失了。我们提出了连续增强离散扩散(CADD)框架,该框架通过在连续潜在空间中配对的扩散过程来增强离散状态空间。由此产生的分级、逐渐被破坏的状态中,掩码标记由带有噪声但仍具信息量的潜在向量表示,而非坍缩为“信息真空”。在每一步逆向过程中,CADD能够利用连续潜在空间作为语义提示,指导离散去噪。这一设计简洁且与现有离散扩散训练兼容。在采样时,通过调整连续潜在向量估计器的强度与选择,可以在模式覆盖(生成多样化输出)与模式寻求(生成上下文精确输出)行为之间实现可控的权衡。实验表明,CADD在文本生成、图像合成和代码建模任务上,相较于基于掩码的扩散模型,均提升了生成质量,在定性和定量指标上均对强大的离散基线模型实现了持续改进。
我们研究了在多轮强化学习中训练大型语言模型作为智能体时,哪些方法真正有效,哪些则不然。尽管进展迅速,现有框架和定义仍显零散,缺乏对跨任务设计选择重要性的系统化阐述与分析。为填补这一空白,我们首先将设计空间分解为三个相互关联的支柱——环境、奖励和策略,并通过实证研究提炼出在特定文本领域中训练LLM智能体的方法。具体而言,我们测试了TextWorld和ALFWorld这两个用于检验具身推理的流行领域,以及SWE-Gym以应对更多软件工程风格的任务。(i) 在环境方面,我们分析了任务复杂度对状态空间和动作空间大小以及最优解长度的影响,发现即使领域内简单的环境也能提供智能体向更复杂任务泛化能力的信号。(ii) 对于奖励,我们探讨了相对奖励稀疏性的影响,观察到虽然密集的回合级奖励能加速训练,但性能和稳定性高度依赖于所选的RL算法。(iii) 在智能体策略方面,我们探索了奖励稀疏性与有偏(PPO、GRPO)和无偏(RLOO)策略梯度方法之间的相互作用,并展示了在固定预算下如何找到监督微调(SFT)与RL训练的最佳比例。我们将这些发现提炼成一套训练指南,指导三个支柱的协同设计,促进多轮智能体RL的研究与实践。代码:https://github.com/pearls-lab/meow-tea-taro
脊柱疾病影响着全球6.19亿人口,是导致残疾的主要原因之一,然而AI辅助诊断仍因缺乏层级感知的多模态数据集而受限。脊柱疾病的临床决策需要在特定椎体层面上对X光、CT和MRI进行复杂推理。然而,由于缺乏可追溯的、基于临床的指导数据以及标准化的脊柱专用基准,这一领域的进展受到限制。为此,我们推出了SpineMed,这是一个与执业脊柱外科医生共同设计的生态系统。它包含SpineMed-450k,这是首个专为跨影像模态的椎体层级推理设计的大规模数据集,拥有超过45万条指导实例,以及SpineBench,一个基于临床的评估框架。SpineMed-450k从多种来源精心挑选,包括教科书、指南、开放数据集和约1000例去识别化的医院病例,采用临床医生参与的两阶段大语言模型生成方法(草稿与修订),以确保高质量、可追溯的数据,用于问答、多轮咨询和报告生成。SpineBench在临床关键维度上评估模型,包括层级识别、病理评估和手术规划。我们对多个近期先进的大型视觉语言模型(LVLMs)在SpineBench上的全面评估揭示了在细粒度、层级特定推理方面的系统性弱点。相比之下,基于SpineMed-450k微调的模型在所有任务上均展现出持续且显著的改进。临床医生的评估证实了我们模型输出的诊断清晰度和实际应用价值。
尽管大型语言模型(LLMs)的最新进展已成功实现了具备自然语言交互能力的生成式推荐系统,但其推荐行为仍存在局限,导致系统中其他更为基础却至关重要的组件,如元数据或属性过滤,未能得到充分利用。我们提出了一种基于LLM的音乐推荐系统,该系统通过工具调用构建统一的检索-重排序流程。我们的系统将LLM定位为端到端的推荐系统,能够解析用户意图、规划工具调用,并协调多个专门组件:布尔过滤器(SQL)、稀疏检索(BM25)、密集检索(嵌入相似度)以及生成式检索(语义ID)。通过工具规划,系统预测应使用哪些类型的工具、它们的执行顺序及所需参数,以寻找符合用户偏好的音乐,支持多样化的交互模式,同时无缝整合多种数据库过滤方法。我们证明,这一统一的工具调用框架通过根据用户查询选择性地采用适当的检索方法,在多种推荐场景中均展现出竞争力,为对话式音乐推荐系统开辟了新的范式。
GUI定位任务,即将自然语言指令映射到像素坐标,对于自主代理至关重要,但对当前视觉语言模型(VLMs)而言仍具挑战。核心瓶颈在于可靠的区域到像素映射,这在推广到训练中未见的高分辨率显示时容易失效。现有方法直接从视觉特征生成文本形式的坐标标记,迫使模型隐式推断复杂的位置到像素映射关系;因此,在新分辨率下,准确性下降且错误频发。我们通过两项互补创新来解决这一问题。首先,RULER标记作为显式坐标指示器,使模型能够像地图上的网格线一样引用位置,并调整而非从头生成坐标。其次,交错式多分辨率旋转位置编码(I-MRoPE)通过确保宽度和高度维度得到同等表示,改进了空间编码,解决了标准位置方案的不对称性问题。在ScreenSpot、ScreenSpot-V2和ScreenSpot-Pro数据集上的实验显示,定位准确性持续提升,尤其是在高分辨率界面上改善最为显著。通过提供显式的空间指导而非依赖隐式学习,我们的方法实现了跨多样分辨率和平台更可靠的GUI自动化。
基于大型语言模型(LLMs)的网页代理在处理用户目标时,必须解析冗长的网页观察数据;这些页面往往包含数万乃至更多的标记。这不仅会耗尽上下文限制,还增加了计算成本;此外,处理完整页面使代理面临如提示注入等安全风险。现有的剪枝策略要么舍弃了相关内容,要么保留了无关上下文,导致动作预测效果欠佳。我们提出了FocusAgent,一种简单而有效的方法,它利用轻量级LLM检索器,根据任务目标从可访问性树(AxTree)观察中提取最相关的行。通过剔除噪声和无关内容,FocusAgent在提升推理效率的同时,降低了遭受注入攻击的脆弱性。在WorkArena和WebArena基准测试中的实验表明,FocusAgent在保持强大基线性能的同时,将观察规模缩减了超过50%。此外,FocusAgent的一个变体显著降低了提示注入攻击的成功率,包括横幅和弹窗攻击,同时在无攻击环境下维持了任务完成性能。我们的研究结果表明,基于LLM的定向检索是构建高效、有效且安全的网页代理的一种实用且稳健的策略。
自Deepseek-R1发布以来,基于可验证奖励的强化学习(RLVR)已成为训练大型语言模型(LLMs)执行推理任务的核心方法。近期研究主要集中于改进损失函数,以提升RLVR的效率和效果。本文受LLMs中过度思考现象研究的启发,提出了一种新颖的元RLVR算法——基于长度感知的策略优化采样(LSPO),该算法依据平均响应长度动态选择每一步的训练数据。我们在多种基础模型和数据集上对LSPO进行了评估,结果表明其持续提升了学习效能。此外,我们还开展了一项详细的消融研究,探讨了将长度信号融入动态采样的其他方式,为未来研究提供了深入见解并指明了有前景的方向。
针对网络代理,已提出了多种提示注入攻击。与此同时,尽管已开发出多种方法来检测一般的提示注入攻击,但尚未有系统性地针对网络代理进行评估的研究。本工作填补了这一空白,首次提出了针对网络代理的提示注入攻击检测的全面基准研究。我们首先基于威胁模型,对此类攻击进行了细致的分类。随后,构建了包含恶意与良性样本的数据集:恶意文本片段由不同攻击生成,良性文本片段涵盖四种类别;恶意图像由攻击产生,良性图像则来自两个类别。接着,我们系统化地整理了基于文本和图像的检测方法。最后,在多种场景下评估了它们的性能。我们的核心发现表明,虽然部分检测器能够以中等至高准确率识别依赖显式文本指令或可见图像扰动的攻击,但对于省略显式指令或采用不可察觉扰动的攻击,这些检测器大多失效。我们的数据集与代码已发布于:https://github.com/Norrrrrrr-lyn/WAInjectBench。
当前大型语言模型(LLM)的发展将任务解决与偏好对齐视为两个独立的挑战,首先优化客观正确性,再调整以符合聚合的人类偏好。这一范式在面向人类的应用中失效,因为在这些场景下,仅正确解决问题是不够的,若回应与用户需求不符则仍显不足。这一挑战在即时场景中尤为突出,由于冷启动条件或隐私限制,缺乏先前的用户交互历史。LLMs需要识别其对用户偏好的未知之处,通过提问策略性地引出偏好值,随后调整其推理过程及回应——这一系列复杂的认知过程我们称之为个性化推理。我们提出了PREFDISCO,一种评估方法,它将静态基准转化为交互式个性化任务,采用基于心理学的、偏好稀疏的人物角色。我们的框架构建了场景,其中相同的问题需要根据用户上下文采用不同的推理链,因为最优的解释方法因个人专业知识和偏好而异,同时保持事实准确性。对21个前沿模型在10项任务上的评估显示,29.0%的简单个性化尝试比通用回应更差地匹配了偏好,而通用回应同样无法有效满足个体用户需求。这些发现表明,个性化推理需要专门开发,而非自然涌现。PREFDISCO将个性化推理确立为一个可衡量的研究前沿,并揭示了当前LLMs在交互能力上的根本局限,为开发能够适应教育、医疗和技术领域个性化需求的系统奠定了基础,这些领域中个性化至关重要。
优化带有奖励机制的离散扩散模型(DDM)仍面临挑战:非自回归范式使得重要性采样难以处理,且展开过程复杂,这令诸如群体相对策略优化(GRPO)等强化学习方法陷入困境。本研究提出了MaskGRPO,这是首个在离散扩散中实现可扩展多模态强化学习的可行方案,它具备有效的重要性采样及模态特定适应性。为此,我们首先明确了DDM的理论基础,进而构建了一个重要性估计器,该估计器能捕捉到对梯度更新有价值的标记波动。随后,我们精心设计了针对视觉序列的展开方法,该方法不仅生成了多样化的完成结果,还提供了可靠的优化梯度。在数学推理、编码及视觉生成基准测试中,MaskGRPO带来了更稳定、高效的更新,从而实现了更强的推理性能与更优的生成质量。本研究确立了MaskGRPO作为一种系统性策略优化方法的地位,并首次为离散化视觉扩散提供了实用途径。
梯度下降法已被证明是众多机器学习应用中一种强大且有效的优化技术。然而,计算神经科学的最新进展表明,标准梯度下降优化公式中的学习过程与生物系统中的学习并不一致。这为构建受生物启发的学习技术开辟了有趣的新途径。其中一种方法受到戴尔定律的启发,该定律指出在学习过程中,抑制性和兴奋性突触不会互换角色。由此产生的指数梯度下降优化方案导致突触权重呈对数正态分布。有趣的是,满足与几何布朗运动(GBM)对应的随机微分方程(SDE)的福克-普朗克方程的密度正是对数正态密度。利用这一联系,我们从控制几何布朗运动的SDE出发,证明了离散化相应的反向时间SDE会产生一个乘法更新规则,令人惊讶的是,这与基于戴尔定律的指数梯度下降更新的采样等价性相吻合。此外,我们提出了一种新的乘法去噪分数匹配形式,涵盖了Hyvaerinen为非负数据提出的损失函数。事实上,对数正态分布的数据是正数,所提出的分数匹配形式自然契合。这使得能够训练基于分数的图像数据模型,并产生了一种从对数正态密度开始的样本生成的新颖乘法更新方案。在MNIST、Fashion MNIST和Kuzushiji数据集上的实验结果展示了新方案的生成能力。据我们所知,这是首个基于几何布朗运动、采用乘法更新的生物启发生成模型实例。
检索增强生成(RAG)将文档检索与大规模语言模型(LLMs)相结合。虽然扩展生成器能提升准确性,但也增加了成本并限制了可部署性。我们探索了一个正交方向:扩大检索器的语料库以减少对大型LLMs的依赖。实验结果表明,语料库的扩展持续强化了RAG,并常可作为增大模型规模的替代方案,尽管在更大规模时收益递减。中小型生成器搭配更大语料库,往往能与使用较小语料库的更大模型相媲美;中型模型通常获益最多,而微型和大型模型受益较少。我们的分析显示,改进主要源于答案相关段落覆盖率的提升,而利用效率基本保持不变。这些发现确立了一个原则性的语料库-生成器权衡:投资于更大的语料库为增强RAG提供了一条有效途径,其效果常可与扩大LLM本身相提并论。
生成式视频模型展现了卓越的文本到视频转换能力,推动了其在众多现实应用中的广泛采用。然而,与大型语言模型(LLMs)类似,视频生成模型也易产生幻觉,即便在事实错误的情况下仍能生成看似合理的视频。尽管先前研究已对LLMs的不确定性量化(UQ)进行了深入探讨,但针对视频模型的UQ方法尚属空白,这引发了重大的安全隐患。据我们所知,本文是首次尝试量化视频模型不确定性的研究工作。我们提出了一套生成式视频模型不确定性量化框架,包含:(i)一种基于稳健秩相关估计的视频模型校准评估指标,无需严格的建模假设;(ii)一种面向视频模型的黑箱UQ方法(命名为S-QUBED),该方法利用潜在建模严格地将预测不确定性分解为偶然性和认知性成分;(iii)一个UQ数据集,以促进视频模型校准的基准测试。通过在潜在空间中设定生成任务,我们区分了因任务描述模糊引起的不确定性与因知识不足导致的不确定性。通过在基准视频数据集上的大量实验,我们证明了S-QUBED能够计算出与任务准确度负相关的校准总不确定性估计,并有效分离出偶然性和认知性成分。
当前主流的视频到音频(V2A)生成模型采用离线模式运行,假设整个视频序列或帧块已预先提供。这一特性严重限制了它们在互动应用中的使用,如实时内容创作和新兴的生成式世界模型。为填补这一空白,我们引入了帧级在线V2A生成这一新颖任务,其中模型无需访问未来视频帧即可自回归地生成音频。此外,我们提出了SoundReactor,据我们所知,这是首个专为此任务设计且简单高效的框架。我们的设计确保了端到端的因果性,并致力于实现低每帧延迟与音视频同步。模型的核心是一个仅解码器的因果变换器,作用于连续的音频潜在空间。在视觉条件方面,它利用了从DINOv2视觉编码器最小变体中提取的网格(补丁)特征,这些特征每帧聚合为单一令牌,以保持端到端的因果性和效率。模型通过扩散预训练和一致性微调进行训练,以加速扩散头解码。在基于AAA级游戏视频的多样化基准测试中,我们的模型成功生成了语义和时间上对齐的高质量全频段立体声音频,并通过客观和人类评估验证。此外,在30FPS、480p视频上,使用单块H100显卡,我们的模型实现了低每帧波形级延迟(NFE=1时为26.3ms,NFE=4时为31.5ms)。演示样本可在https://koichi-saito-sony.github.io/soundreactor/获取。
随着扩散模型和流匹配模型在生成性能上达到顶尖水平,研究界的关注点转向了在不牺牲样本质量的前提下减少推理时间。一致性模型(CMs)通过在扩散或概率流常微分方程(PF-ODE)轨迹上训练以保持一致性,能够实现一步或两步的流或扩散采样。然而,CMs通常需要长时间训练和大批量数据才能获得具有竞争力的样本质量。本文深入探讨了CMs在接近收敛时的训练动态,发现CM切线——即CM输出更新的方向——呈现出显著的振荡特性,表现为它们平行于数据流形移动而非朝向流形。为了缓解这种振荡切线,我们提出了一种新的损失函数,称为流形特征距离(MFD),它提供了指向数据流形的流形对齐切线。因此,我们的方法——命名为“对齐你的切线”(AYT)——能够将CM训练速度提升数个数量级,甚至超越学习感知图像块相似度度量(LPIPS)。此外,我们发现该损失函数支持在极小批量下训练而不影响样本质量。代码已发布:https://github.com/1202kbs/AYT。
多模态大语言模型(MLLMs)在通用视觉基准测试中表现出色,但在特定领域(如医学影像)的分布外(OOD)任务上表现欠佳,这些领域标注数据稀缺且成本高昂。我们提出了LEAML,一种标签高效的适应框架,该框架充分利用了少量标注的视觉问答(VQA)样本和大量未标注的图像。我们的方法通过问答生成器生成与领域相关的伪问答对,该生成器受到标题蒸馏的约束。重要的是,我们仅选择性更新与问答最相关的神经元,使得问答生成器在蒸馏过程中能高效获取领域特定知识。在胃肠内镜和体育视觉问答上的实验表明,在最小监督条件下,LEAML始终优于标准微调方法,凸显了我们提出的LEAML框架的有效性。
现代语言模型所展现的显著性能提升,目前主要依赖于参数规模的扩大:更大的模型能够存储更多的世界知识,并具备更强的推理能力。然而,将所有世界知识压缩到模型参数中既无必要——因为每个提示仅需使用其中的一小部分——也不适用于内存和计算资源受限的边缘设备。针对这一不足,我们提出了一种内存增强架构,并结合现有硬件范式设计了一种预训练策略。我们引入了小型语言模型,这些模型能够访问编码世界知识的大型分层参数化记忆库。在预训练和推理过程中,我们提取一个与上下文相关的小型记忆块,并将其融入模型。我们的预训练方法旨在将长尾世界知识存储于记忆参数中,而小型语言模型则作为锚点,捕捉通用知识及一般推理能力。通过万亿规模token的实验,我们展示了显著的性能提升:一个配备18M参数记忆库(源自4.6B参数记忆库)的160M参数模型,其性能可与参数规模超过其两倍的常规模型相媲美。通过大量实验,我们研究了Transformer中参数化记忆的最佳类型与规模,并将其扩展至超过210亿参数。我们发现,所提出的分层前馈记忆机制在Transformer架构中表现出良好的鲁棒性,无论是预训练阶段加入还是事后添加均能有效工作。
软件开发高度依赖大量的单元测试,这使得自动化单元测试生成(UTG)的效率尤为重要。然而,现有的大多数大型语言模型(LLMs)在每次前向传播中仅能逐个生成测试用例,导致UTG效率低下。近期,扩散式大型语言模型(dLLMs)崭露头角,展现出并行生成的潜力,为高效UTG带来了希望。尽管具备这一优势,dLLMs在UTG中的应用仍受限于效率与测试质量之间的明显权衡,因为每步生成更多token往往会导致测试用例质量急剧下降。为克服这一局限,我们提出了DiffTester,一个专为dLLMs在UTG中设计的加速框架。DiffTester的核心思想在于,针对同一核心方法的单元测试常共享重复的结构模式。通过生成过程中基于抽象语法树的动态分析识别这些共同模式,DiffTester自适应地增加每步生成的token数量,同时不牺牲输出质量。为进行全面评估,我们扩展了原本仅限于Python的TestEval基准,引入了包括Java和C++在内的更多编程语言。在三个基准上使用两种代表性模型进行的大量实验表明,DiffTester在保持测试覆盖率的同时实现了显著加速。此外,DiffTester在不同dLLMs和编程语言间展现出良好的泛化能力,为软件开发中的高效UTG提供了一个实用且可扩展的解决方案。代码与数据已公开于https://github.com/wellbeingyang/DLM4UTG-open。
理解自动驾驶中的风险不仅需要感知与预测,还需对智能体行为及环境进行高层推理。当前基于视觉语言模型(VLMs)的方法主要将智能体定位在静态图像中,提供定性判断,缺乏捕捉风险随时间演变所需的时空推理能力。为填补这一空白,我们提出了NuRisk,一个全面的视觉问答(VQA)数据集,包含2,900个场景和110万个智能体级别样本,基于nuScenes和Waymo的真实世界数据构建,并辅以CommonRoad模拟器中的安全关键场景。该数据集提供基于鸟瞰图(BEV)的序列图像,带有定量、智能体级别的风险标注,支持时空推理。我们评估了多种提示技术下的知名VLMs,发现它们无法执行显式的时空推理,导致在高延迟下最高准确率仅为33%。针对这些不足,我们微调的7B VLM智能体将准确率提升至41%,并将延迟降低75%,展现了专有模型所不具备的显式时空推理能力。尽管这标志着显著进步,但相对较低的准确率凸显了该任务的巨大挑战,确立了NuRisk作为推动自动驾驶时空推理发展的关键基准地位。
政策合规性评估是一项基础任务,旨在判断输入案例是否严格遵循一系列人为定义的规则,这些规则更普遍地被称为政策。实践中,人类专家遵循系统化、逐步的过程来识别与政策中具体规定相违背的情况。然而,获取这种代表黄金标准、专家级推理过程的记录成本高昂。本文引入了政策推理轨迹(Policy Reasoning Traces, PRT),这是一种专门生成的推理链,作为推理桥梁,旨在提升大型语言模型(LLM)在政策合规性评估方面的能力。我们的实证评估表明,无论是在推理阶段还是训练阶段使用PRT,均显著提升了开源权重模型和商业模型的性能,为HIPAA和GDPR政策设立了新的技术标杆。除了准确率的提升,我们还强调了PRT如何增强LLM准确引用政策条款的能力,以及通过其从原始思维链中的高利用率来影响合规决策。