每日精选AI研究论文及翻译
在严格控制的预训练设置下,我们观察到一个交叉现象:当独特数据有限时,通过增加训练轮次,扩散语言模型(DLM)会持续超越自回归(AR)模型。这种交叉点会随着数据量增加或质量提升而延后出现,随着模型规模扩大而提前出现,并且在稠密与稀疏架构中均稳定存在。我们将性能提升归因于三个复合因素:(1)任意顺序建模能力,(2)迭代式双向去噪带来的超密集计算,以及(3)内置的蒙特卡洛增强机制;虽然输入噪声或参数噪声能在数据受限时提升AR模型表现,但无法弥合这一差距。在规模化实验中,一个17亿参数的DLM使用约1.5万亿token的计算预算,在100亿独特Python token上训练后,超越了在严格匹配设置下训练的AR代码生成模型。此外,一个10亿参数的DLM仅使用10亿token进行标准预训练数据重复训练(未采用特殊技巧),便在HellaSwag上达到超过56%的准确率,在MMLU上超过33%。我们还发现,在这种训练机制下,验证集交叉熵的上升并不代表下游任务性能的退化。
由于缺乏有效的跨模态建模,现有开源音视频生成方法常存在唇形同步失真与语义一致性不足的问题。为克服这些缺陷,我们提出UniAVGen——一个面向音视频联合生成的统一框架。该框架采用双分支联合合成架构,通过两个并行的扩散变换器构建连贯的跨模态潜空间。其核心是非对称跨模态交互机制,该机制支持双向时序对齐的交叉注意力,从而确保精确的时空同步与语义一致性。此外,我们通过面部感知调制模块增强跨模态交互,该模块能动态聚焦交互过程中的显著性区域。为提升推理生成质量,我们额外引入模态感知的无分类器引导策略,这种新颖方法可显式增强跨模态关联信号。值得注意的是,UniAVGen强大的联合合成设计使其能以单一模型无缝整合关键音视频任务,包括音视频联合生成与续写、视频配音、音频驱动视频生成等。综合实验表明,在训练样本量显著减少的情况下(130万 vs 3010万),UniAVGen在音视频同步性、音色一致性与情感一致性方面均展现出整体优势。
尽管利用大语言模型(LLM)自动生成三维场景已取得进展,但生成场景常缺乏真实环境中的合理空间布局与物体属性。该问题的根源在于指导指令过于粗略、缺乏细节,因此推进基于反映真实环境的细粒度指令的三维场景合成技术至关重要。若缺乏逼真场景,在非真实环境中训练具身智能体会使其学习到与现实世界物理规律及语义显著偏离的先验知识,进而导致实际部署时性能下降。因此,验证细粒度指令与生成场景之间的对齐性对有效学习至关重要。然而当前评估方法(如CLIPScore和视觉语言模型)往往难以可靠评估这种对齐性,这主要源于其对三维场景的浅层理解,常导致场景要素定位失准。为此,我们提出LEGO-Eval评估框架,该框架配备多样化工具以显式锚定场景要素,从而实现更精准的对齐评估。同时我们推出LEGO-Bench基准数据集,包含针对真实环境复杂布局与属性的细粒度指令集。实验表明,LEGO-Eval在场景-指令对齐评估中的F1分数比VLM-as-a-judge方法高出0.41。基于LEGO-Bench的测试揭示了当前生成方法的显著局限:在所有评估方法中,能完全符合细粒度指令的场景生成成功率最高仅达10%。
当前对大语言模型智能体的评估主要聚焦于任务完成度,往往忽视了资源效率与适应性这一关键维度。这种评估盲区忽略了智能体的核心能力:在动态环境中制定并调整成本最优方案的能力。为弥补这一缺陷,我们推出CostBench——一个可扩展的成本导向型基准测试框架,专门用于评估智能体的经济推理与动态重规划能力。该框架以旅行规划为应用场景,包含一系列可通过不同原子工具与复合工具组合解决的任务,这些工具具有多样化且可定制的成本属性。同时,CostBench支持工具故障、成本波动等四类动态阻断事件,以模拟现实世界的不确定性并驱动智能体实时调整策略。通过对主流开源与商业模型在CostBench上的测试发现,现有智能体在成本感知规划方面存在显著不足:在静态环境下往往无法找到成本最优解,即便GPT-5在最困难任务上的精确匹配率也不足75%,而在动态场景下性能进一步下降约40%。通过系统诊断这些缺陷,CostBench为开发兼具经济合理性与鲁棒性的下一代智能体奠定了重要基础。
表格数据仍是现实应用中最主要的数据形式。然而,由于特征类型异构且存在多尺度复杂交互,开发适用于表格数据的有效神经网络模型仍具挑战。近年来表格上下文学习(ICL)技术取得突破,如TabPFN和TabICL无需任务特定微调即可达到与梯度提升树(GBT)相媲美的顶尖性能。但现有架构存在明显局限:(1)单尺度特征处理忽视层次化依赖关系;(2)稠密注意力机制随表格宽度呈二次方复杂度增长;(3)严格顺序的组件处理阻碍迭代表示优化与跨组件通信。为解决这些问题,我们提出Orion-MSP表格ICL架构,其三大创新包括:(1)多尺度处理机制捕捉层次化特征交互;(2)融合窗口化、全局化与随机模式的块稀疏注意力,实现可扩展效率与长程关联;(3)感知器风格记忆模块确保组件间安全的双向信息流。在多样化基准测试中,Orion-MSP在有效扩展至高维表格的同时达到或超越现有顶尖性能,为高效表格上下文学习树立了新标准。模型已开源:https://github.com/Lexsi-Labs/Orion-MSP。
表格基础模型正成为结构化数据学习的新范式,将大规模预训练的优势扩展至表格领域。然而,由于异构的预处理流程、碎片化的API接口、不一致的微调流程,以及缺乏面向部署的校准度与公平性等标准化评估指标,其应用仍受限。本文提出TabTune——通过统一接口标准化表格基础模型完整工作流的开源库。该库支持零样本推理、元学习、监督微调(SFT)和参数高效微调(PEFT)等多种适配策略,为七种前沿模型提供一致性访问。框架内置模型感知的自动化预处理流程,内部消化架构异构性,并集成性能、校准度与公平性评估模块。TabTune以可扩展性和可复现性为设计目标,为表格基础模型的适配策略提供标准化基准测试。该开源项目地址为:https://github.com/Lexsi-Labs/TabTune。
对运动学结构与可动部件的深入理解,对于实现机器人操控物体及模拟自身关节形态至关重要。这种认知通过关节化对象得以体现,其在物理仿真、运动规划及策略学习等任务中具有核心价值。然而针对高自由度物体的建模工作仍面临重大挑战。现有方法通常依赖运动序列或人工标注数据集中的强假设,这限制了方法的扩展性。本文提出Kinematify框架,能够直接从任意RGB图像或文本描述自动生成关节化对象。我们的方法攻克了两大核心难题:(i)推断高自由度物体的运动学拓扑结构;(ii)从静态几何形态中估计关节参数。通过结合蒙特卡洛树搜索进行结构推断,以及基于几何驱动的优化方法进行关节推理,本框架可生成物理一致且功能有效的运动学描述。我们在合成环境与真实场景的多样化输入上评估Kinematify,结果表明其在配准精度与运动学拓扑准确性方面均优于现有方法。
大型语言模型(LLMs)在各类基准测试中表现优异——从知识问答、数学推理到网络智能体任务——但这些测试均处于静态环境,缺乏真实的动态性与不确定性。因此,它们评估的是孤立的推理或问题解决能力,而非不确定情境下的决策能力。为此,我们推出LiveTradeBench——一个实时交易环境,用于在真实且持续变化的市场中评估LLM智能体。LiveTradeBench遵循三大设计原则:(一)实时市场行情与新闻数据流,摆脱对离线回测的依赖,杜绝信息泄露,同时捕捉实时不确定性;(二)投资组合管理抽象机制,将控制范围从单一资产操作扩展至多资产配置,整合风险管理与跨资产推理能力;(三)跨市场评估体系,覆盖结构迥异的环境(美股与Polymarket预测市场),其在波动性、流动性和信息流方面存在显著差异。在每个决策步,智能体观察价格、新闻及投资组合状态,随后输出平衡风险与收益的资产配置比例。通过LiveTradeBench,我们对21个不同系列的LLM进行了为期50天的实盘评估。结果表明:(1)高LMArena分数并不等同于优异的交易结果;(2)不同模型展现出反映风险偏好与推理动态的独特投资组合风格;(3)部分LLM能有效利用实时信号调整决策。这些发现揭示了静态评估与现实能力之间的差距,呼吁建立能够检验连续决策能力与实时不确定性下稳定性的新基准。
随着推理模型规模的快速扩张,多模态在人类认知中的核心作用日益凸显,推动了对视觉中心认知行为进行系统性探索的迫切需求。然而,现有多模态基准要么过度强调文本推理,要么未能系统化捕捉视觉中心认知行为,导致对多模态大语言模型认知能力的评估存在不足。为解决这一局限,我们提出MME-CC(多模态认知能力评估基准),该视觉基础基准将11项代表性推理任务归类为空间、几何和知识推理三大视觉信息基础类别,并从细粒度角度分析MLLMs在这些维度上的认知能力。基于MME-CC,我们对16个代表性MLLMs展开广泛实验。研究发现:闭源模型目前整体领先(如Gemini-2.5-Pro得分为42.66,GLM-4.5V为30.45),而空间与几何推理能力普遍薄弱(≤30%)。我们进一步识别出常见错误模式,包括方向判断失误、跨视角身份识别一致性脆弱、反事实指令遵循能力差等,并观察到思维链通常遵循“提取→推理→验证”三阶段流程且高度依赖视觉提取。本研究期望推动学界将MLLMs的认知能力作为评估与模型设计的核心考量。
我们重新审视语言模型推理的测试时扩展策略,并探讨一个根本性问题:在同等令牌预算和计算资源下,究竟是运行多个独立并行链更优,还是运行较少链但通过连续步骤迭代优化更佳?通过对5个前沿开源模型和3个具有挑战性的推理基准进行全面评估,我们发现采用显式构建于先前尝试基础上的连续扩展策略,在95.6%的配置中持续优于主流的并行自洽范式,准确率最高提升46.7%。此外,我们提出逆熵加权投票法——一种无需训练的新方法,可进一步提升连续扩展的准确率。该方法通过按推理链逆熵比例加权答案,使我们的成功率超越并行多数表决法,确立了其作为最优测试时扩展策略的地位。这些发现从根本上挑战了自Wang等人(2022)提出自洽解码以来主导测试时扩展的并行推理范式,将连续优化定位为现代大语言模型推理的稳健默认方案,亟需推动推理时优化方法的范式转变。
协作对话依赖于参与者逐步建立共同基础,但在非对称情境下,对话者可能自认为达成共识却实际指涉不同实体。我们为HCRC地图任务语料库(Anderson等人,1991)引入了一种透视主义标注方案,该方案分别捕捉说话者和受话者对每个指称表达的情境化解读,从而能追踪理解如何随时间推移形成、分化及修复。通过采用方案约束的大语言模型标注流程,我们获得了1.3万个带可靠性评估的标注指称表达,并分析了由此产生的理解状态。结果表明:在统一词汇变体后,完全误解现象较为罕见,但多重性差异会系统性地引发理解分歧,揭示出表面共识可能掩盖指称错位的机制。本框架既为研究情境化误解提供了资源与分析视角,也为评估(视觉)大语言模型在协作对话中建模视角依存性 grounding 的能力提供了方法论基础。
查询增强技术通过向查询附加补充信息来提升其语义丰富度,从而更精准地匹配相关文档。当前研究提出了基于大语言模型(LLM)的嵌入器,通过多任务学习模式同时优化嵌入表示和查询增强生成,充分利用LLM的生成能力。在推理阶段,这些联合训练的嵌入器先执行查询增强再进行嵌入操作,展现出显著效果。然而,对所有查询进行增强会导致较高的嵌入延迟,且部分查询的增强反而会损害检索性能。此外,现有方法尚未在多模态环境中进行探索。针对这些问题,我们提出M-Solomon——一种能自适应判断是否进行查询增强的通用多模态嵌入器。该方法首先在数据集层级将训练查询划分为两组:需要增强的查询与无需增强的查询。随后通过强大的多模态大语言模型(MLLM)为需要增强的查询生成合适的增强内容。接着我们提出自适应查询增强机制:M-Solomon通过学习为需要增强的查询生成带"/augment"前缀的合成增强内容,而为其他查询生成简单字符串"/embed",从而实现按需增强。实验结果表明,M-Solomon不仅大幅超越无增强的基线模型,其性能也优于持续使用增强的基线方法,同时显著降低了嵌入延迟。
理解当前AI科学家系统的能力与风险,对于确保可信且可持续的AI驱动科研进程、同时维护学术生态的完整性至关重要。为此,我们开发了Jr. AI Scientist——一种模拟初级学生研究者核心科研流程的先进自主AI科学家系统:在获得人类导师提供的基线论文后,该系统能分析其局限性,提出改进的创新假设,通过严谨实验进行验证,并撰写成果论文。与以往假定全自动化或仅处理小规模代码的方法不同,Jr. AI Scientist遵循明确的研究流程,并利用现代代码智能体处理复杂的多文件实现,从而产生具有科学价值的成果。在评估方面,我们采用AI评审员进行自动化评估、作者主导的评估以及向专注AI科研贡献的Agents4Science平台投稿。结果表明,Jr. AI Scientist生成的论文获得比现有全自动化系统更高的评审分数。然而,通过作者评估和Agents4Science评审,我们发现了当前AI科学家系统直接应用存在的重大局限性与潜在风险,这些也是未来研究面临的关键挑战。最后,我们全面报告了开发过程中识别的各类风险,希望这些发现能深化对AI科学家发展现状与风险的理解。