每日精选AI研究论文及翻译
大规模语言模型(LLMs)的持续扩展是否会导致收益递减?实际价值往往源于智能体能够完成的任务长度。我们通过观察一个简单却反直觉的事实开启这项研究:单步准确率的边际提升可以复合为模型成功完成任务长度的指数级改进。随后,我们提出,当简单任务被延长时,LLMs的失败源于执行中的错误,而非推理能力的不足。我们建议通过明确提供解决长期任务所需的知识和计划,来隔离执行能力。我们发现,即使小型模型在单步任务上达到100%的准确率,更大的模型仍能正确执行显著更多的步骤。我们注意到,随着步骤数量的增加,模型的每步准确率会下降。这不仅仅是因为长上下文限制——有趣的是,我们观察到一种自我条件效应——当上下文中包含模型先前步骤的错误时,模型更有可能犯错。仅通过扩大模型规模并不能减少这种自我条件效应。相比之下,最新的思维模型不会自我条件化,并且还能在单步中执行更长的任务。最后,我们通过基准测试前沿思维模型在单步中能执行的任务长度来得出结论。总体而言,通过聚焦于执行能力,我们希望能调和关于LLMs如何能解决复杂推理问题却在简单任务延长时失败的争论,并强调扩大模型规模和顺序测试时计算对于长期任务的巨大益处。
任意分辨率图像生成技术为跨设备提供了一致的视觉体验,在生产者与消费者中拥有广泛的应用前景。当前扩散模型的计算需求随分辨率呈二次方增长,导致4K图像生成耗时超过100秒。为解决这一问题,我们在潜在扩散模型的基础上探索第二代技术,将扩散模型生成的固定潜在空间视为内容表示,并提出利用一步式生成器从紧凑的潜在空间中解码任意分辨率图像。由此,我们引入了InfGen,用新型生成器替代VAE解码器,能够从固定大小的潜在空间生成任意分辨率的图像,而无需重新训练扩散模型。这一方法简化了流程,降低了计算复杂度,并适用于所有使用相同潜在空间的模型。实验表明,InfGen能够将众多模型提升至任意高分辨率时代,同时将4K图像生成时间缩短至10秒以内。
自主AI代理的迅速普及正在催生一个新的经济层面,在这个层面中,代理以超越人类直接监管的规模和速度进行交易与协调。我们提出“沙盒经济”作为分析这一新兴系统的框架,从两个关键维度对其进行刻画:其起源(自发形成与人为设计)及其与现有人类经济的分离程度(可渗透与不可渗透)。当前的发展趋势指向一个自发形成、高度可渗透的AI代理经济体系,这为我们带来了前所未有的协调机遇,同时也伴随着系统性经济风险和加剧的不平等等重大挑战。本文探讨了若干可能的设计选择,以期引导AI代理市场安全可控地发展。具体而言,我们考虑了公平资源分配和偏好解决的拍卖机制、围绕实现集体目标而设计的AI“使命经济”,以及确保信任、安全与问责所需的社会技术基础设施。通过这一系列探讨,我们主张主动设计可引导的代理市场,确保即将到来的技术变革与人类长期集体繁荣相契合。
在部件级别生成三维形状对于下游应用至关重要,如网格重拓扑、UV映射和3D打印。然而,现有的基于部件的生成方法往往缺乏足够的可控性,且语义分解效果不佳。为此,我们提出了X-Part,一种可控生成模型,旨在将整体三维对象分解为语义明确、结构连贯且几何保真度高的部件。X-Part利用边界框作为部件生成的提示,并注入点级语义特征以实现有意义的分解。此外,我们设计了一个可编辑的管道,用于交互式部件生成。大量实验结果表明,X-Part在部件级形状生成方面达到了最先进的性能。这项工作为创建生产就绪、可编辑且结构合理的3D资产建立了新范式。代码将公开发布以供研究使用。
在第二语言习得过程中,参与度和动机至关重要,然而在教育对话中保持学习者的兴趣仍是一大挑战。尽管先前的研究已探讨了教育文本的有趣性因素,但对于驱动对话参与度的语言特征仍知之甚少。为填补这一空白,我们引入了IntrEx,这是首个针对师生互动中有趣度及预期有趣度进行标注的大规模数据集。基于教师-学生聊天室语料库(TSCC),IntrEx通过引入序列级标注扩展了先前的工作,使得研究能够超越单轮对话,捕捉兴趣在长对话中的演变过程。我们采用了一套严格的标注流程,邀请了超过100名第二语言学习者参与,并借鉴了基于人类反馈的强化学习(RLHF)中的比较评分方法,以提高标注一致性。我们探究了大语言模型(LLMs)能否预测人类对有趣度的判断。研究发现,经过有趣度评分微调的LLMs(7B/8B参数)在预测效果上超越了如GPT-4o等更大的专有模型,展示了专门数据集在教育场景中建模参与度的潜力。最后,我们分析了具体性、可理解性(可读性)及吸收度等语言与认知因素如何影响教育对话中的参与度。
检索增强生成(RAG)方法通过将信息检索(IR)技术与大型语言模型(LLMs)相结合,提升了问答系统和对话生成任务的表现。该策略通过从外部知识库中检索信息来增强生成模型的响应能力,已取得了一定成效。然而,当前RAG方法在处理多跳查询时仍面临诸多挑战。例如,某些方法过度依赖迭代检索,在复合查询上浪费了过多检索步骤。此外,使用原始复杂查询进行检索可能无法捕捉到与特定子查询相关的内容,导致检索结果中存在噪声。如果不对噪声进行管理,可能会引发噪声累积问题。为解决这些问题,我们提出了HANRAG,一种基于启发式的新框架,旨在高效应对不同复杂程度的问题。在强大启发机制的驱动下,HANRAG能够路由查询、将其分解为子查询,并从检索文档中过滤噪声。这增强了系统的适应性和抗噪能力,使其能够出色处理多样化查询。我们在多个基准测试中将所提框架与其他行业领先方法进行了对比。结果表明,我们的框架在单跳和多跳问答任务中均取得了卓越性能。
随着视觉-语言模型(VLMs)日益精进,其推理能力正受到越来越多的关注。尽管这些模型在许多任务上表现出色,但它们对基础科学原理(如物理学)的理解仍是一个尚未充分探索的领域。为了反映这些能力的进步,我们引入了一个新颖且易于使用的框架,旨在严格评估VLMs对二维物理学的理解。该框架包含一个实用的场景生成器,能够创建涵盖四个核心领域(抛体运动、碰撞动力学、力学和流体动力学)的400多个多样化测试问题。通过对四个最先进的VLMs进行全面评估,我们展示了模型规模与推理能力之间的强相关性,其中表现最佳的模型Qwen2.5-VL-7B获得了0.815的总分。我们发现,尽管模型在公式化问题上表现出色,但在需要抽象空间推理的领域中却面临显著挑战。通过设计这一框架,我们旨在普及VLMs科学推理的研究,并促进对其能力和局限性的深入理解。
掩码扩散大语言模型(dLLMs)正逐渐成为自回归大语言模型的有力替代者,它们在提供竞争性能的同时,还支持诸如图像修复等独特的生成能力。我们探讨了如何利用图像修复技术来指导dLLMs的强化学习算法设计。将大语言模型与强化学习对齐面临一个探索挑战:稀疏的奖励信号以及当模型未能发现正确解决方案时的样本浪费。尽管这种低效性广泛影响大语言模型,但dLLMs提供了一个独特的机会——它们的图像修复能力可以引导探索。我们引入了IGPO(图像修复引导策略优化),这是一个在在线采样过程中策略性地插入部分真实推理轨迹的强化学习框架。与提供完整解决方案不同,图像修复将探索引导至有潜力的轨迹空间,同时保留自我生成的推理,从而在监督微调与强化学习之间架起桥梁。我们将IGPO应用于基于群体的优化方法,如GRPO,其中探索失败会导致零优势和梯度。IGPO恢复了有意义的梯度,同时提高了样本效率。我们还提出对合成重写的简洁轨迹进行监督微调,这些轨迹更符合dLLM的生成模式。结合基于熵的过滤等额外技术,我们的训练方案在三个数学基准测试——GSM8K、Math500和AMC上取得了显著提升,为全注意力掩码dLLMs实现了新的最先进成果。
模型上下文协议(MCP)正迅速崛起为一项关键的开放标准,旨在增强智能体与工具的集成及互操作性,并有望开启一个强大、互联且真正实用的智能体AI新时代。然而,尽管MCP的采用日益广泛,现有基准测试往往未能捕捉到这一新范式下智能体的真实世界表现,导致对其实际操作价值的误解,以及无法可靠区分其能力水平。为填补这一关键评估空白,我们推出了MCP-AgentBench——一个专门设计用于严格评估在MCP介导的工具交互中语言智能体能力的综合基准。MCP-AgentBench的核心贡献包括:构建了一个包含33个运行服务器和188种不同工具的稳健MCP测试平台;开发了一个包含600个系统设计查询的基准,这些查询分布在6个不同复杂度的交互类别中;以及引入了MCP-Eval,一种新颖的以结果为导向的评估方法,优先考虑现实世界任务的成功率。通过对领先语言智能体的广泛实证评估,我们提供了基础性见解。MCP-AgentBench旨在为研究社区提供一个标准化且可靠的框架,以构建、验证并推进能够充分利用MCP变革性优势的智能体,从而加速实现真正具备能力和互操作性AI系统的进程。
近期,大型语言模型(LLMs)在金融推理与市场理解方面展现出了显著的能力。诸如TradingAgent和FINMEM等多智能体LLM框架,通过融合基本面与情绪分析输入,增强了这些模型在长期投资任务中的战略决策能力。然而,此类系统难以满足高频交易(HFT)对高速、精准决策的严苛要求。HFT依赖于基于结构化、短期信号的快速且风险意识强的决策,这些信号包括技术指标、图表形态及趋势特征,与传统的金融LLM应用所擅长的长期语义推理截然不同。为此,我们推出了QuantAgent,这是首个专为高频算法交易设计的多智能体LLM框架。该系统将交易分解为四个专业智能体——指标、形态、趋势和风险,每个智能体配备领域专用工具和结构化推理能力,以捕捉短时间窗口内市场的不同动态。在涵盖比特币和纳斯达克期货等十种金融工具的零样本评估中,QuantAgent在4小时交易区间内的预测准确性和累计收益上均表现出色,超越了强大的神经网络和基于规则的基线模型。我们的研究表明,将结构化金融先验知识与语言本机推理相结合,为高频金融市场中可追踪的实时决策系统开辟了新的潜力。
开发高效的视觉-语言-动作(VLA)策略对于实际机器人部署至关重要,然而现有方法面临高昂的计算成本和资源需求。当前基于扩散的VLA策略需要数十亿参数的模型和海量数据集才能实现强劲性能。我们通过两项创新应对这一效率挑战:中间模态融合,通过修剪多达50%的大型语言模型层,将容量重新分配给扩散头;以及动作特定的全局自适应层归一化(Global-AdaLN)条件机制,通过模块化适配减少20%的参数。我们将这些进展整合到一个名为FLOWER的新型950M参数VLA中。仅需200个H100 GPU小时的预训练,FLOWER在涵盖十个仿真和现实世界基准的190项任务中,与更大的VLA模型相比展现出竞争力,并在多样化的机器人实体中表现出鲁棒性。此外,FLOWER在CALVIN ABC基准测试中创下了4.53的新纪录。演示、代码及预训练权重可在https://intuitive-robots.github.io/flower_vla/获取。
长尾学习因其在现实场景中的广泛应用而日益受到关注。在现有方法中,长尾半监督学习(LTSSL)通过将大量未标记数据融入不平衡的标记数据集,已成为一种有效的解决方案。然而,大多数先前的LTSSL方法旨在从头训练模型,这往往导致过度自信和低质量伪标签等问题。为应对这些挑战,我们将LTSSL扩展至基础模型微调范式,并提出了一种新颖框架:LoFT(通过参数高效微调实现的长尾半监督学习)。我们证明,经过微调的基础模型能够生成更可靠的伪标签,从而有益于不平衡学习。此外,我们探索了一种更为实际的设置,即在开放世界条件下研究半监督学习,其中未标记数据可能包含分布外(OOD)样本。为解决此问题,我们提出了LoFT-OW(开放世界场景下的LoFT)以提升判别能力。在多个基准测试上的实验结果表明,与先前方法相比,即使仅使用1%的未标记数据,我们的方法仍能实现更优的性能。
我们提出了概率结构集成(Probabilistic Structure Integration, PSI)系统,该系统能够从数据中学习具有丰富可控性和灵活提示性的世界模型。PSI包含一个三步循环过程。第一步,概率预测,涉及构建数据的概率图模型Psi,其形式为随机访问的自回归序列模型。Psi支持一整套学习到的条件分布,这些分布描述了数据中任意变量对任何其他变量集的依赖关系。在第二步,结构提取中,我们展示了如何通过Psi上的因果推理,以零样本方式提取数据中潜在的、对应于多种有意义“中间结构”的低维特性。第三步,集成,通过将这些结构转化为新的标记类型,并持续将其作为条件信号和预测目标混合回训练数据中,从而完成循环。每一次这样的循环都增强了Psi的能力,既使其能更好地建模底层数据,又创造了新的控制手段——类似于大语言模型(LLM)的通用提示语言。我们在1.4万亿个互联网视频数据标记上训练了一个Psi实例;利用它执行了多种有用的视频预测和理解推理;提取了最先进的光流、自监督深度和对象分割;并利用这些结构支持了预测改进的完整循环。
在文本到图像(T2I)生成中,精确的色彩对齐对于时尚、产品可视化和室内设计等应用至关重要,然而当前的扩散模型在处理微妙且复合的色彩术语(如蒂芙尼蓝、柠檬绿、亮粉色)时往往力不从心,生成的图像常与人类意图不符。现有方法依赖于交叉注意力操控、参考图像或微调,但未能系统性地解决模糊的色彩描述问题。为了在提示模糊的情况下精确渲染色彩,我们提出了一种无需训练的框架,通过利用大型语言模型(LLM)来消除色彩相关提示的歧义,并直接在文本嵌入空间中指导色彩混合操作,从而提升色彩保真度。我们的方法首先使用大型语言模型(LLM)解析文本提示中的模糊色彩术语,然后基于这些色彩术语在CIELAB色彩空间中的空间关系优化文本嵌入。与先前方法不同,我们的方法无需额外训练或外部参考图像即可提高色彩准确性。实验结果表明,该框架在不影响图像质量的前提下改善了色彩对齐,弥合了文本语义与视觉生成之间的鸿沟。
口语模型(SLMs)作为一种统一的范式,已在语音理解与生成领域崭露头角,促进了自然的人机交互。然而,尽管多数进展集中于语义准确性与指令遵循,SLMs依据口头指令调整其说话风格的能力却鲜少受到关注。我们提出了语音风格适应(VSA)这一新任务,旨在探究SLMs能否根据自然语言的口头命令,调整其音色、韵律或角色扮演等说话风格。为研究此任务,我们推出了VStyle,一个双语(中英)基准测试,涵盖语音生成的四大类别:声学属性、自然语言指令、角色扮演及隐性共情。同时,我们引入了大音频语言模型作为评判者(LALM as a Judge)框架,该框架逐步评估输出在文本忠实度、风格遵循度及自然度上的表现,确保评估的可重复性与客观性。对商业系统及开源SLMs的实验表明,当前模型在可控风格适应方面存在明显局限,凸显了该任务的新颖性与挑战性。通过发布VStyle及其评估工具包,我们期望为社区提供一个推动以人为中心的语音交互发展的基础。数据集与代码已公开于https://junzhan2000.github.io/VStyle.github.io/{项目主页}。
大型语言模型(LLMs)在多个领域取得了显著成功。然而,一个根本性问题依然存在:LLMs能否有效利用因果知识进行预测和生成?通过实证研究,我们发现直接在大规模数据上训练的LLMs往往捕捉到的是虚假相关性而非真实的因果关系,这导致其表现欠佳,尤其是在分布外(OOD)场景中。为应对这一挑战,我们提出了因果注意力调优(Causal Attention Tuning, CAT),这是一种将细粒度因果知识注入注意力机制的新方法。我们设计了一个自动化流程,利用人类先验知识自动生成令牌级别的因果信号,并引入重注意力机制来指导训练,帮助模型聚焦于因果结构,同时减少注意力分数中的噪声和偏差。在我们提出的虚假令牌游戏(Spurious Token Game, STG)基准测试及多个下游任务上的实验结果表明,我们的方法能有效利用因果知识进行预测,并在OOD场景中保持鲁棒性。具体实现细节可访问https://github.com/Kairong-Han/CAT。
融入外部语境能显著提升大语言模型(LLMs)的响应质量。然而,现实世界的语境往往混杂着相关信息与不成比例的不当内容,带来可靠性风险。LLMs如何处理并优先考虑混合语境?为探究此问题,我们引入了“污染语境测试平台”,将查询与包含相关及不当内容的真实语境配对。受动物联想学习启发,我们借鉴神经科学中的Rescorla-Wagner(RW)模型,量化竞争性语境信号如何影响LLM输出。经调整后的模型揭示了一致的行为模式:LLMs展现出强烈倾向,倾向于采纳语境中较少出现的信息。这种易感性在现实场景中尤为有害,少量不当内容即可大幅降低响应质量。我们的测试平台实证评估进一步证实了这一脆弱性。为应对此问题,我们提出了RW-Steering,一种基于两阶段微调的方法,使模型能在内部识别并忽略不当信号。与以往依赖广泛监督、针对多样语境混合的方法不同,RW-Steering能在不同比例的不当内容中稳健泛化。实验表明,我们最佳微调模型提升了39.8%的响应质量,并逆转了不良行为曲线,确立了RW-Steering作为提升LLM在现实使用中安全性的稳健、可泛化语境工程解决方案的地位。
针对表格等结构化数据的视觉推理是现代视觉-语言模型(VLMs)的一项关键能力,然而当前的基准测试在规模、多样性或推理深度方面仍显不足,尤其是在处理渲染后的表格图像时。为填补这一空白,我们推出了Visual-TableQA,这是一个大规模、开放领域的多模态数据集,专门设计用于评估和提升对复杂表格数据的视觉推理能力。我们的生成流程模块化、可扩展且完全自动化,涉及多个推理大语言模型(LLMs)在生成、验证和启发等不同角色上的协作。Visual-TableQA包含2.5k个结构丰富的LaTeX渲染表格和6k个推理密集型的问答对,所有内容的生产成本不足100美元。为促进多样性和创造性,我们的流程通过跨模型提示(“启发”)和LLM陪审团过滤实现多模型协作数据生成。更强的模型负责布局和主题的初步构思,较弱的模型则进行细化,共同将多样化的推理模式和视觉结构提炼到数据集中。实证结果表明,在Visual-TableQA上微调的模型能够稳健地泛化至外部基准测试,尽管数据集为合成性质,但仍超越多个专有模型的表现。完整的流程和资源已公开于https://github.com/AI-4-Everyone/Visual-TableQA。
本系统论文介绍了DeMeVa团队在第三届“学习分歧”共享任务(LeWiDi 2025;Leonardelli等人,2025)中的研究方法。我们探索了两个方向:一是基于大语言模型的上下文学习(ICL),在此我们对比了不同的示例采样策略;二是结合RoBERTa(Liu等人,2019b)的标签分布学习(LDL)方法,我们评估了多种微调技术。我们的贡献主要体现在两个方面:(1)我们证明了ICL能够有效预测特定标注者的注释(即视角主义注释),并且将这些预测聚合为软标签后,能取得具有竞争力的性能;(2)我们提出LDL方法在软标签预测方面展现出潜力,值得视角主义研究社区进一步深入探索。
大型语言模型(LLMs)正迅速改变社会科学研究,通过自动化数据标注和文本分析等劳动密集型任务。然而,LLM的输出结果会因研究者的实施选择(如模型选择、提示策略或温度设置)而显著变化。这种变化可能引入系统性偏差和随机误差,进而影响下游分析,导致I型、II型、S型或M型错误。我们称这种现象为LLM操控。 我们通过复制21项已发表社会科学研究中的37个数据标注任务,并使用18种不同模型,量化了LLM操控的风险。在分析1300万条LLM标注后,我们测试了2361个现实假设,以衡量研究者选择对统计结论的影响。我们发现,在使用最先进模型时,约三分之一的假设基于LLM标注数据得出错误结论;而在使用小型语言模型时,这一比例上升至一半。尽管我们的研究显示,任务性能的提升和模型通用能力的增强能降低LLM操控风险,但即使是高精度模型也无法完全消除这一风险。随着效应量的增大,LLM操控的风险降低,这表明在接近显著性阈值时,需要更严格的验证。我们对LLM操控缓解技术的广泛分析强调了人工标注在减少假阳性发现和优化模型选择中的重要性。令人惊讶的是,常见的回归估计校正技术在降低LLM操控风险方面效果甚微,因为它们在很大程度上在I型与II型错误之间进行权衡。 除了无意的错误,我们还发现有意进行LLM操控异常简单。仅需少数LLM和少量提示改写,任何结果都能被呈现为统计显著。
中国的少数民族语言,如藏语、维吾尔语和传统蒙古语,因其独特的书写体系与国际标准存在差异而面临重大挑战。这一差异导致了相关语料库的严重匮乏,尤其是在标题生成等监督任务方面。为填补这一空白,我们推出了一个新颖的数据集——中国少数民族标题生成(CMHG),其中包含10万条藏语条目,以及各5万条的维吾尔语和蒙古语条目,专门为标题生成任务而设计。此外,我们提出了一套由母语者标注的高质量测试集,旨在为未来该领域的研究设立基准。我们期望这一数据集能成为推动中国少数民族语言标题生成研究的重要资源,并为相关基准的发展做出贡献。