每日精选AI研究论文及翻译
近年来,可解释性方法在大型语言模型领域获得了广泛关注,特别是在揭示语言表征、错误检测以及模型行为(如幻觉和重复)方面展现出独特价值。然而,这些技术在自动语音识别(ASR)中的应用仍显不足,尽管它们有潜力提升ASR系统的性能和可解释性。本研究通过调整并系统性地应用诸如Logit Lens、线性探测和激活修补等成熟的可解释性方法,深入探究ASR系统中声学与语义信息在各层间的演变过程。实验揭示了此前未知的内部动态,包括导致重复幻觉的特定编码器-解码器交互,以及深植于声学表征中的语义偏差。这些发现证明了将可解释性技术扩展并应用于语音识别的益处,为未来提升模型透明度和鲁棒性的研究开辟了富有前景的方向。
视觉-语言模型(VLMs)常面临视觉幻觉问题,即描述图像中并不存在的内容,以及语言捷径问题,即跳过视觉部分直接依赖文本先验。这些问题源于大多数VLMs的后训练方法仅依赖于简单的可验证答案匹配,并仅监督最终输出,导致中间视觉推理缺乏明确指导。因此,VLMs接收到的视觉信号稀疏,往往倾向于优先采用基于语言的推理而非视觉感知。为缓解这一问题,现有方法通过人工标注或从外部大模型蒸馏的标签来增加视觉监督。然而,人工标注既耗时又昂贵,且由于外部信号无法适应不断变化的策略,它们会导致分布偏移,进而引发奖励欺骗。本文提出Vision-SR1,一种通过强化学习改进视觉推理的自奖励方法,无需依赖外部视觉监督。Vision-SR1将VLM推理分解为两个阶段:视觉感知与语言推理。模型首先被提示生成自包含的视觉感知,这些感知足以回答问题而无需回溯输入图像。为验证这种自包含性,同一VLM模型随后被重新提示,仅使用生成的感知作为输入进行语言推理以计算奖励。这一自奖励与最终输出的监督相结合,提供了平衡的训练信号,强化了视觉感知与语言推理。实验表明,Vision-SR1在多种视觉-语言任务中提升了视觉推理能力,减少了视觉幻觉,并降低了对语言捷径的依赖。
在图形用户界面(GUI)领域,自主代理在科学计算等专业领域中面临重大挑战,这些领域既需要长远的规划能力,又要求精确的执行力。现有方法存在一个权衡问题:通用型代理擅长规划但在执行上表现欠佳,而专用型代理则表现出相反的弱点。近期的组合框架试图通过结合规划器和执行器来弥合这一差距,但这些框架通常是静态且不可训练的,无法从经验中适应。鉴于科学领域中高质量数据的稀缺性,这是一个关键的限制。为解决这些局限,我们提出了CODA,一种新颖且可训练的组合框架,它将通用型规划器(Cerebrum)与专用型执行器(Cerebellum)集成,通过专门的两阶段流程进行训练。在第一阶段——专业化阶段,我们采用解耦的GRPO方法,针对每个科学应用单独训练专家规划器,从少量任务轨迹中启动。在第二阶段——泛化阶段,我们汇集所有来自专业专家的成功轨迹,构建一个统一的数据集,用于最终规划器的监督微调。这使得CODA既具备强大的执行能力,又拥有跨领域的泛化能力。在ScienceBoard基准测试的四个挑战性应用上评估,CODA显著超越了基线模型,并在开源模型中确立了新的技术标杆。
近期,交互式数字人视频生成技术引起了广泛关注并取得了显著进展。然而,构建一个能够实时响应多样化输入信号的实用系统,对现有方法而言仍具挑战性,这些方法常面临高延迟、高计算成本及有限可控性等问题。本研究提出了一种自回归视频生成框架,该框架支持多模态交互控制,并能以流式方式进行低延迟外推。通过对标准大型语言模型(LLM)进行最小化修改,我们的框架能够接收包括音频、姿态和文本在内的多模态条件编码,并输出空间与语义一致的表示,以指导扩散头的去噪过程。为此,我们从多源构建了一个约20,000小时的大规模对话数据集,为训练提供了丰富的对话场景。此外,我们引入了一种深度压缩自编码器,其压缩比高达64倍,有效缓解了自回归模型在长序列推理上的负担。在双工对话、多语言人像合成及交互式世界模型上的大量实验,凸显了本方法在低延迟、高效率和细粒度多模态可控性方面的优势。
视觉-语言-动作(VLA)模型通过调整大型视觉语言主干网络,将图像和指令映射为机器人动作。然而,现有的VLA解码器要么以固定的从左到右顺序自回归生成动作,要么在主干网络外附加连续的扩散或流匹配头,这需要专门的训练和迭代采样,阻碍了统一、可扩展架构的实现。我们提出了离散扩散VLA,这是一种单一Transformer策略,通过离散扩散对离散化的动作块进行建模,并采用与VLM主干相同的交叉熵目标进行训练。该设计保留了扩散的渐进细化范式,同时与VLM的离散令牌接口保持原生兼容。我们的方法实现了自适应解码顺序,先解决简单的动作元素再处理较难的,并通过二次重掩码在细化轮次中重新审视不确定的预测,从而提升一致性并实现稳健的错误纠正。这一统一解码器保留了预训练的视觉语言先验,支持并行解码,突破了自回归瓶颈,并减少了函数评估次数。离散扩散VLA在LIBERO上实现了96.3%的平均成功率,在SimplerEnv Fractal上达到71.2%的视觉匹配率,在SimplerEnv Bridge上整体表现达到49.3%,优于自回归和连续扩散基线。这些发现表明,离散扩散动作解码器支持精确的动作建模和一致的训练,为将VLA扩展到更大模型和数据集奠定了基础。
近期研究表明,在诸如分析推理和常识推理等软推理问题上,思维链(CoT)方法带来的提升往往有限。此外,CoT可能无法忠实反映模型的实际推理过程。我们探究了在软推理任务中,经过指令调优的模型、推理模型以及推理蒸馏模型使用CoT的动态特性及其忠实度。研究发现,这些模型对CoT的依赖方式存在差异,且CoT的影响与其忠实度并非总是一致。
近期,文本到音频(TTA)生成技术在合成短音频片段方面取得了显著进展,但在处理长篇叙事音频时仍面临挑战,这类音频需要时间上的连贯性和组合推理能力。为填补这一空白,我们提出了AudioStory,一个将大型语言模型(LLMs)与TTA系统相融合的统一框架,旨在生成结构化的长篇音频叙事。AudioStory具备强大的指令跟随与推理生成能力,它利用LLMs将复杂的叙事查询分解为带有上下文提示的时间顺序子任务,从而实现场景间的平滑过渡及情感基调的一致性。AudioStory拥有两大亮点:(1)解耦的桥梁机制:AudioStory将LLM与扩散模型的协作拆分为两个专门组件,即用于事件内语义对齐的桥梁查询和用于跨事件连贯性保持的残差查询。(2)端到端训练:通过将指令理解与音频生成统一于单一端到端框架内,AudioStory无需模块化训练管道,同时增强了组件间的协同效应。此外,我们建立了AudioStory-10K基准,涵盖动画音景和自然声音叙事等多个领域。大量实验表明,AudioStory在单音频生成和叙事音频生成上均表现出色,在指令跟随能力和音频保真度上均超越了先前的TTA基线。我们的代码已发布于https://github.com/TencentARC/AudioStory。
扩散语言模型(DLMs)近期作为自回归方法的替代方案崭露头角,提供了并行序列生成和灵活的标记顺序。然而,其推理速度仍慢于自回归模型,主要归因于双向注意力的计算成本以及高质量输出所需的大量细化步骤。在本研究中,我们强调并利用了一个被忽视的DLM特性——早期答案收敛:在许多情况下,正确的答案可以在最终解码步骤之前,通过半自回归或随机重掩码调度,在中间步骤被内部识别。例如,在GSM8K和MMLU数据集上,分别有高达97%和99%的实例仅需一半的细化步骤即可正确解码。基于这一观察,我们引入了Prophet,一种无需训练、支持早期提交解码的快速解码范式。具体而言,Prophet利用前两大预测候选之间的置信度差距作为标准,动态决定是继续细化还是“全押”(即一步解码所有剩余标记)。它无缝集成到现有的DLM实现中,引入的额外开销微乎其微,且无需额外训练。对LLaDA-8B和Dream-7B在多任务上的实证评估显示,Prophet在保持高生成质量的同时,将解码步骤数最多减少了3.4倍。这些成果将DLM解码重新定义为何时停止采样的问题,并证明早期解码收敛为加速DLM推理提供了一种简单而强大的机制,与现有加速技术相辅相成。我们的代码已公开于https://github.com/pixeli99/Prophet。
多令牌预测(MTP)作为一种辅助目标被提出,旨在提升语言模型训练中的下一令牌预测(NTP)能力,但其改进效果并不稳定,在标准自然语言处理基准测试中表现欠佳。我们认为,MTP对确切未来令牌的预测作为辅助损失过于困难。为此,我们提出了令牌顺序预测(TOP),该方法通过排序学习损失训练模型,根据临近程度对即将到来的令牌进行排序。与MTP需要多个Transformer层相比,TOP仅需增加一个额外的解嵌入层。我们使用NTP、MTP和TOP目标对340M、1.8B和7B参数的模型进行了预训练。在八个标准自然语言处理基准测试上的结果表明,即使在大规模模型上,TOP总体上仍优于NTP和MTP。我们的代码已发布于https://github.com/zaydzuhri/token-order-prediction。
随着模型越来越多地采用多步推理策略来解决复杂问题,监督这些中间步骤的逻辑有效性已成为一项关键的研究挑战。过程奖励模型通过提供逐步反馈来应对这一挑战,但现有方法存在两大缺陷:它们通常作为分类器运行而不提供解释,且依赖于静态数据集的有监督微调,限制了泛化能力。受最新进展启发,我们将逐步奖励建模从分类任务重新定义为推理任务本身。因此,我们提出了一种生成式评判器,它能够对策略模型的推理步骤(即元推理)进行推理,在给出最终判断前输出思考标记。我们的模型StepWiser通过使用推演结果的相对差异进行强化学习训练。实验表明,该模型在以下方面优于现有方法:(i)对中间步骤的判断准确度更高;(ii)可用于训练时改进策略模型;(iii)提升了推理时的搜索效率。
远程光电容积描记术(rPPG)的发展受限于现有公开数据集的关键问题:规模小、面部视频的隐私担忧以及条件多样性不足。本文介绍了一个新颖的、全面的大规模多视角视频数据集,用于rPPG及健康生物标志物估计。我们的数据集包含来自600名受试者的3600段同步视频记录,这些记录在多种条件下(静息和运动后)使用多台不同角度的消费级相机拍摄。为了实现对生理状态的多模态分析,每段视频记录均配以100Hz的PPG信号及扩展的健康指标,如心电图、动脉血压、生物标志物、体温、血氧饱和度、呼吸频率和压力水平。利用这些数据,我们训练了一个高效的rPPG模型,并在跨数据集场景中将其质量与现有方法进行了比较。我们数据集和模型的公开发布,预计将极大加速AI医疗助手研发的进程。
智能手机为用户带来了极大的便利,同时也使得设备能够广泛记录各类个人信息。当前,基于多模态大语言模型(MLLMs)的智能手机代理在自动化执行多种任务方面已展现出卓越性能。然而,作为代价,这些代理在运行过程中被赋予了访问用户敏感个人信息的广泛权限。为了深入理解这些代理的隐私意识,我们首次构建了一个包含7,138个场景的大规模基准测试,据我们所知,这是目前最全面的。此外,针对场景中的隐私内容,我们详细标注了其类型(如账户凭证)、敏感度等级及位置信息。随后,我们对七款主流智能手机代理进行了细致的基准测试。结果显示,几乎所有被测试的代理在隐私意识(RA)方面表现不尽如人意,即便在明确提示下,其性能仍低于60%。总体而言,闭源代理在隐私保护能力上优于开源代理,其中Gemini 2.0-flash表现最佳,RA达到67%。我们还发现,代理的隐私检测能力与场景敏感度高度相关,即敏感度越高的场景通常越容易被识别。我们期望这些发现能启发研究界重新思考智能手机代理在效用与隐私之间不平衡的权衡问题。我们的代码与基准测试数据可在https://zhixin-l.github.io/SAPA-Bench获取。
评估视觉-语言模型(VLMs)在不同表征间是否保持一致的推理能力颇具挑战,因为模态间的比较通常受到任务差异和信息不对称的干扰。我们引入了SEAM基准,该基准在四个已有标准化文本与视觉符号的领域中,配对了语义等价的输入。通过采用跨模态的独特符号系统,与基于OCR的图像-文本配对不同,SEAM为VLMs的文本符号与视觉空间推理能力提供了严格的对比评估。在21个当代模型中,我们观察到系统性的模态不平衡:尽管问题包含语义等价的信息,视觉在整体性能上常落后于语言,且跨模态一致性相对较低。我们的错误分析揭示了两大主要原因:领域符号中因分词导致的文本感知失败,以及引发幻觉的视觉感知失败。我们还证明,我们的结果对视觉变换具有较高的鲁棒性。SEAM为衡量和提升模态无关的推理能力,建立了一个受控且语义等价的环境。
动作生成对于虚拟角色和具身代理的动画制作至关重要。尽管近期基于文本驱动的方法取得了显著进展,但它们往往难以实现语言描述与动作语义之间的精确对齐,同时也受限于缓慢、多步推理的低效性。为解决这些问题,我们引入了TMR++对齐偏好优化(TAPO),这是一个创新框架,能够将细微的动作变化与文本修饰符对齐,并通过迭代调整强化语义基础。为进一步实现实时合成,我们提出了MotionFLUX,一个基于确定性修正流匹配的高速生成框架。与需要数百步去噪的传统扩散模型不同,MotionFLUX在噪声分布与动作空间之间构建最优传输路径,从而促进实时合成。线性化的概率路径减少了对序列方法中多步采样的需求,在不牺牲动作质量的前提下显著加速了推理时间。实验结果表明,TAPO与MotionFLUX共同构成了一个统一系统,在语义一致性和动作质量上均超越了现有最先进方法,同时大幅提升了生成速度。代码及预训练模型将予以发布。
研究与知识综合能力是人类专业素养与进步的核心。一类新兴系统通过生成式研究综合展现了这些令人振奋的能力,它们能在实时网络中进行检索,并将发现的资源综合成长篇、带引用的摘要。然而,评估此类系统仍是一个开放性的挑战:现有的问答基准主要关注简短的事实性回答,而专家策划的数据集则存在陈旧和数据污染的风险。两者均未能捕捉到真实研究综合任务的复杂性和动态演变特性。在本研究中,我们推出了DeepScholar-bench,这是一个实时基准测试及全面的自动化评估框架,旨在评估生成式研究综合。DeepScholar-bench从近期高质量的ArXiv论文中提取查询,专注于一项真实的研究综合任务:通过检索、综合并引用先前研究,生成论文的相关工作部分。我们的评估框架从知识综合、检索质量和可验证性三个关键维度全面评估性能。同时,我们开发了DeepScholar-base,一个利用LOTUS API高效实现的参考流程。借助DeepScholar-bench框架,我们对先前的开源系统、搜索AI、OpenAI的DeepResearch以及DeepScholar-base进行了系统评估。结果表明,DeepScholar-base建立了强有力的基线,其性能与每种方法相比均具有竞争力或更优。此外,我们发现DeepScholar-bench远未达到饱和,所有系统在所有指标上的得分均未超过19%。这些结果凸显了DeepScholar-bench的难度,以及其对推动具备生成式研究综合能力的AI系统发展的重要性。我们的代码已发布于https://github.com/guestrin-lab/deepscholar-bench。
部署大型语言模型(LLMs)是一项对GPU资源需求极高的任务,传统自动扩展机制在此显得力不从心,尤其是在面对现代预填充-解码(P/D)分离架构时。这一架构转变虽强大,却带来了显著的运营挑战,包括异构硬件利用效率低下、网络瓶颈以及预填充与解码阶段之间的关键性失衡。我们提出了HeteroScale,一个协调的自动扩展框架,旨在解决P/D分离架构部署中的核心难题。HeteroScale结合了一个能适应异构硬件与网络限制的拓扑感知调度器,以及一项源自首次大规模生产环境中自动扩展信号实证研究的新颖指标驱动策略。通过采用单一且稳健的指标来协同扩展预填充与解码资源池,HeteroScale在确保高效、自适应资源管理的同时,保持了架构的平衡。在数万GPU的大规模生产环境中部署后,HeteroScale展现了其卓越效能,平均GPU利用率显著提升了26.6个百分点,每日节省数十万GPU小时,同时严格满足了服务水平目标。
材料建模的基础模型正在快速发展,但其训练成本依然高昂,往往使得许多研究团队难以触及最先进的方法。我们推出了Nequix,一种紧凑的E(3)等变势能模型,它结合了简化的NequIP架构与现代训练实践,包括等变均方根层归一化和Muon优化器,在保持精度的同时大幅降低了计算需求。基于JAX构建的Nequix拥有70万参数,仅用500个A100 GPU小时完成训练。在Matbench-Discovery和MDR Phonon基准测试中,Nequix总体排名第三,而所需训练成本不到大多数其他方法的四分之一,并且其推理速度比当前排名第一的模型快一个数量级。我们在https://github.com/atomicarchitects/nequix上发布了模型权重及完全可复现的代码库。
本文识别并分析了一类基于模型上下文协议(MCP)的智能体系统中的新型安全漏洞。通过攻击链的描述与演示,我们展示了如何将原本良性且各自获得授权的任务进行编排,从而产生有害的涌现行为。利用MITRE ATLAS框架进行系统分析,我们证明了在测试的95个具备多服务访问权限的智能体中——包括浏览器自动化、财务分析、位置追踪及代码部署——它们能够将合法操作串联成复杂的攻击序列,这些攻击超出了任何单一服务的安全边界。这些红队演练调查了当前MCP架构是否缺乏跨域安全措施,无法检测或阻止一大类组合式攻击。我们提供了具体攻击链的实证证据,这些攻击链通过服务编排实现了定向危害,如数据泄露、财务操纵和基础设施破坏。这些发现揭示了,当智能体能够跨多个领域协调行动时,服务隔离的基本安全假设便告失效,从而形成一个随每项新增能力呈指数级增长的攻击面。本研究提供了一个基础实验框架,其评估重点不在于智能体能否完成MCP基准任务,而在于当它们过于出色地完成任务并跨多个服务进行优化时,会如何违背人类预期与安全约束。我们提出了利用现有MCP基准套件进行的三项具体实验方向。