每日精选AI研究论文及翻译
当前先进的视频生成模型通常学习视频在VAE潜空间中的分布,并通过VAE解码器将其映射为像素。虽然这种方法能生成高质量视频,但存在收敛速度慢、生成长视频时计算成本高的问题。本文提出SemanticGen这一创新解决方案,通过在语义空间生成视频来突破这些限制。我们的核心思路是:由于视频本身存在固有冗余性,生成过程应当始于紧凑的高层语义空间进行全局规划,再逐步添加高频细节,而非直接使用双向注意力对海量低层视频令牌进行建模。SemanticGen采用两阶段生成流程:第一阶段通过扩散模型生成紧凑的语义视频特征,定义视频的全局布局;第二阶段由另一个扩散模型基于这些语义特征生成VAE潜变量以产生最终输出。我们观察到,与VAE潜空间相比,语义空间中的生成具有更快的收敛速度。本方法在扩展至长视频生成时仍能保持高效性与计算经济性。大量实验表明,SemanticGen能生成高质量视频,其性能优于现有先进方法和强基线模型。
现有强化学习方法将大语言模型视为单一统一策略,忽视了其内部工作机制。因此,理解策略在不同层级和模块间的演化过程,对于实现更具针对性的优化和揭示复杂推理机制至关重要。本文通过利用Transformer残差流的固有分割特性,以及隐藏状态与解嵌入矩阵的组合等价于可采样策略的性质,对语言模型策略进行分解。这种分解揭示了内部层级策略(对应各独立层级的贡献)和内部模块化策略(与每层中的自注意力机制和前馈网络组件对齐)。通过分析内部策略的熵,我们发现:(a)底层保持高熵以支持探索,顶层收敛至近零熵以实现精炼,且收敛模式因模型系列而异;(b)LLama模型的预测空间在最终层快速收敛,而Qwen系列模型(尤其是Qwen3)展现出更接近人类的渐进结构化推理模式。基于这些发现,我们提出自下而上策略优化——一种在早期训练阶段直接优化内部层级策略的新型强化学习范式。通过对齐底层训练目标,BuPO重构了基础推理能力并实现了卓越性能。在复杂推理基准测试上的大量实验证明了我们方法的有效性。代码已开源:https://github.com/Trae1ounG/BuPO。
近期,多模态大语言模型及利用工具进行长视频问答的系统取得显著进展,展现出对小时级视频内容进行推理的潜力。然而,现有方法仍多将内容压缩为有损摘要或依赖有限工具集,导致时序定位能力弱化并丢失细粒度线索。我们提出一种多智能体框架:主控大语言模型协调定位智能体进行问题相关片段定位,并调度视觉智能体提取目标文本观察结果。主控智能体在步数限制下进行规划,并通过强化学习训练以促进简洁、准确且高效的多智能体协作。该设计使主控智能体借助定位聚焦相关片段,用视觉细节补充字幕信息,并生成可解释的推理轨迹。在我们基于TVQA/TVQA+构建的剧集级数据集LongTVQA与LongTVQA+上,多智能体系统显著优于强非智能体基线。实验还表明强化学习能进一步强化已训练智能体的推理与规划能力。代码与数据将在https://longvideoagent.github.io/共享。
认知科学表明,空间能力呈递进式发展——从感知到推理再到交互。然而在多模态大语言模型(MLLM)中,这种层次结构仍未被充分理解,现有研究多聚焦于有限任务范畴。我们提出受认知科学启发的SpatialTree层次框架,将空间能力划分为四个层级:低阶感知(L1)、心理映射(L2)、模拟推演(L3)和具身交互(L4)。基于此分类体系,我们构建了首个以能力为中心的层次化基准,系统评估了主流MLLM在27项子能力上的表现。评估结果揭示出清晰的结构特征:L1技能基本相互独立,而高阶技能呈现强相关性,表明能力间依赖度逐级增强。通过定向监督微调,我们发现了有趣的迁移动态——L1内部存在负迁移现象,但从低阶到高阶能力存在显著的跨级正向迁移与协同效应。最后我们探索了全层次能力提升路径:发现单纯鼓励长链"思考"的强化学习(RL)并不可靠,虽能提升复杂推理却会损害直觉感知。我们提出一种简单的自动思考调控策略,通过抑制冗余推演使RL能持续提升所有层级性能。SpatialTree的建立为理解并系统化扩展MLLM空间能力提供了概念验证框架。
自进化记忆系统正以前所未有的方式重塑基于大语言模型的智能体进化范式。现有研究主要依赖人工设计的记忆架构来存储轨迹、提炼经验并合成可复用工具,使智能体能在环境交互中实时进化。然而,这种范式本质上受限于记忆系统自身的静态特性:虽然记忆能促进智能体层面的进化,但其底层架构无法针对多样化任务场景进行元适应。为突破这一局限,我们提出MemEvolve框架,通过联合进化智能体的经验知识与记忆架构,使智能体系统不仅能积累经验,还能持续优化其学习机制。为将MemEvolve植根于现有研究并促进未来自进化系统的开放发展,我们构建了EvolveLab统一代码库——该平台将十二种代表性记忆系统提炼为模块化设计空间(编码、存储、检索、管理),既提供标准化实现基础,也构建了公平的实验环境。在四大挑战性智能体基准测试上的广泛实验表明,MemEvolve实现了:(I)显著性能提升,将SmolAgent、Flash-Searcher等框架性能最高提升17.06%;(II)强大的跨任务与跨模型泛化能力,其设计的记忆架构能有效迁移至不同基准测试与骨干模型。
基于大语言模型(LLM)的智能体在复杂推理和多轮交互中展现出卓越能力,但在新部署环境中难以实现持续改进与适应。构建技能库使智能体能够学习、验证并应用新技能,是目前颇具前景的解决方案。然而现有技能库方法主要依赖大语言模型提示,导致技能库的稳定实施面临挑战。为突破这些限制,我们提出一种基于强化学习(RL)的方法,通过技能库增强智能体的自我进化能力。具体而言,我们设计了面向自我进化的技能增强型GRPO框架(SAGE),该创新强化学习框架系统性地将技能融入学习过程。其核心组件"顺序式 rollout"机制,会在相似任务链上迭代部署智能体——当智能体遍历任务链时,前期任务生成的技能将不断积累至技能库,供后续任务调用。此外,框架通过融合原始结果奖励与技能集成奖励,显著提升了技能生成与利用效率。在AppWorld环境中的实验表明,应用SAGE的专家经验监督微调模型实现了场景目标完成度8.9%的提升,同时交互步骤减少26%,生成令牌数降低59%,在准确性与效率上显著超越现有方法。
随着大语言模型向自主智能体演进,深度研究能力已成为关键评估指标。然而现有学术基准(如BrowseComp)往往难以满足开放域研究的实际需求,这类研究需要强大的意图识别、长程决策和跨源验证能力。为此,我们推出具有成本效益的端到端智能体Step-DeepResearch,提出基于原子能力的数据合成策略以强化规划与报告撰写能力,并结合从智能体中期训练到SFT与RL的渐进式训练路径。通过引入清单式评判器增强系统鲁棒性,同时针对中文领域的评估空白,建立了面向真实深度研究场景的ADR-Bench评测体系。实验表明,Step-DeepResearch(32B)在Scale AI研究量表中获得61.4%得分,在ADR-Bench上显著超越同规模模型,并与OpenAI、Gemini DeepResearch等闭源SOTA模型性能相当。这些证明通过精细化训练,中等规模模型能以业界领先的性价比实现专家级研究能力。
通用音频源分离是多模态AI系统感知与推理声音的关键能力。尽管近年来取得显著进展,但现有分离模型要么局限于特定领域(如专用于语音或音乐的固定类别),要么可控性受限(仅支持文本等单一提示模态)。本研究提出的SAM Audio基础模型,通过统一文本、视觉和时间跨度提示的框架,实现了通用音频分离。该模型基于扩散变换器架构,采用流匹配技术在海量语音、音乐及通用声音数据上进行训练,能够灵活分离通过语言描述、视觉掩码或时间跨度指定的目标声源。在涵盖自然场景音频与专业制作音频的通用声音、语音、音乐及乐器分离等多维度基准测试中,该模型均达到最先进性能,显著优于此前通用型与专用型系统。此外,我们引入了带有人工标注多模态提示的真实场景分离基准,以及与人耳评判高度相关的无参考评估模型。
我们推出INTELLECT-3——一个基于端到端强化学习基础设施栈训练、拥有1060亿参数(激活120亿)的混合专家模型。该模型在数学、编程、科学和推理等基准测试中,以同等规模实现了最先进的性能表现,超越了许多参数更大的前沿模型。我们将模型连同其完整构建基础设施开源发布,包括强化学习框架、完整训练方案,以及通过验证器库构建的、来自Environments Hub社区平台的丰富训练评估环境集合。为此我们全新开发了prime-rl框架,这是一个支持大规模异步强化学习的开源架构,可实现从单节点到数千张GPU的无缝扩展,并专门为智能体强化学习设计,原生支持多轮交互与工具调用功能。基于该技术栈,我们在GLM-4.5-Air-Base模型基础上同步进行了监督微调与强化学习训练,最终在512张H200显卡上实现了高训练效率的大规模强化学习训练。
代码大语言模型(Code LLM)虽功能强大但训练成本高昂,现有缩放定律通过模型规模、数据量和算力来预测性能。然而不同编程语言在预训练阶段产生的差异性影响会显著改变基础模型性能,导致预测失准。现有研究多关注语言无关场景,忽视了现代软件开发固有的多语言特性。因此需先探究不同编程语言的缩放规律,再考量其相互影响以建立最终的多语言缩放定律。本文首次系统探索多语言代码预训练的缩放规律,通过超1000次实验(等效336,000+ H800显卡小时)覆盖多种编程语言、模型规模(0.2B至14B参数)及数据集规模(1T标记)。我们建立了跨编程语言的完整缩放定律,发现解释型语言(如Python)从模型规模与数据量提升中的获益远大于编译型语言(如Rust)。研究证实多语言预训练能产生协同效应,尤其在语法相似的编程语言间更为显著。此外,采用并行配对策略(将代码片段与其翻译版本拼接)的预训练方式能显著增强跨语言能力,且具备良好的缩放特性。最终我们提出比例依赖型多语言缩放定律,通过优先分配高效用语言(如Python)、平衡高协同语言对(如JavaScript-TypeScript)、缩减快速饱和语言(如Rust)的标记分配,在相同算力预算下相比均匀分配策略能在所有编程语言上实现更优的平均性能。
准确识别大语言模型输出是否包含事实性幻觉对于实际应用至关重要,例如检索增强生成和文本摘要。本文提出FaithLens——一种兼具成本效益与效能的事实性幻觉检测模型,可同步提供二元判定结果及相应解释以增强可信度。为实现这一目标,我们首先通过先进大语言模型合成包含解释的训练数据,并采用严格的数据过滤策略确保标签准确性、解释质量与数据多样性。随后基于这些精心构建的训练数据对模型进行冷启动微调,并通过基于规则的强化学习进一步优化,同时考量预测准确性和解释质量的奖励信号。在12项多样化任务上的实验表明,仅80亿参数的FaithLens在性能上超越了GPT-4.1和o3等先进模型。同时,该模型能生成高质量解释,在可信度、效率与效能三者间实现了卓越平衡。
流式语音到文本翻译(StreamST)要求在处理输入语音的同时实时生成译文,这既施加了严格的延迟限制,又需要模型在部分信息决策与高质量翻译之间取得平衡。该领域的研究长期依赖SimulEval工具库,但该库已停止维护,且不支持输出修订型系统。此外,其设计初衷是模拟短语音片段处理,而非长音频流场景,也未提供便捷的系统演示方案。为此,我们推出首个专用于StreamST系统统一评估与演示的开源框架simulstream。该框架专为长语音流处理设计,不仅支持增量解码方法,还兼容重翻译机制,可在同一框架内进行质量与延迟的对比评估。同时,其交互式网页界面支持展示基于该工具构建的任何系统。
针对长程多轮对话的时间推理能力是对话智能体的核心需求。然而现有研究及我们的初步实验表明,当对话历史增长并累积噪声时,当前的长上下文模型难以准确识别时间相关信息,严重影响了推理性能。为此,我们提出Memory-T1框架,该框架通过强化学习训练具有时间感知能力的记忆选择策略。其采用由粗到精的双阶段处理:首先通过时间与相关性过滤器对对话历史进行剪枝生成候选集,再由强化学习智能体精准筛选证据会话。强化学习训练受多层级奖励函数引导,同步优化(i)答案准确性、(ii)证据可追溯性及(iii)时间一致性。其中时间一致性奖励通过评估会话级(时序邻近性)和语句级(时序保真度)与查询时间范围的匹配度,提供密集信号,使智能体能够解析细微的时间歧义。在Time-Dialog基准测试中,Memory-T1将70亿参数模型的综合得分提升至67.0%,创造了开源模型的新标杆,较140亿参数基线模型提升10.2%。消融实验表明时间一致性与证据可追溯性奖励共同带来15.0%的性能增益。此外,当基线模型在12.8万令牌规模下失效时,Memory-T1仍保持稳健性能,证明了其对长对话历史噪声的有效抑制。代码与数据集已开源:https://github.com/Elvin-Yiming-Du/Memory-T1/
理解物理世界对通用人工智能体至关重要。然而,当前最先进的视觉感知模型(如大型视觉语言模型)是否具备定量推理物理属性的能力仍不明确。现有评估方法主要基于视觉问答范式且偏向定性分析,难以判断这些模型能否从视频观察中推断运动物体的运动学参数。为此,我们推出首个定量评估视觉语言模型物理推理能力的基准QuantiPhy。该基准包含3,300余个带数值真值的视频-文本实例,通过标准化提示模板和评分体系,评估模型在给定时间点依据某一先验属性(尺寸、速度或加速度)推算其他运动学量的数值准确性。我们对前沿视觉语言模型的实验表明,其定性合理性与实际数值准确性之间存在系统性差距。进一步深度分析显示,在定量推理运动学属性时,当前最先进的模型过度依赖预训练的世界知识,而非忠实利用提供的视觉文本输入作为参考依据。QuantiPhy首次为视觉语言模型提供了严谨可扩展的测试平台,推动其超越语言层面的合理性,迈向具有数值依据的物理认知。
当前视频虚拟人生成方法在身份保持与运动对齐方面表现卓越,但缺乏真正的自主性——它们无法通过自适应环境交互自主追求长期目标。为此,我们提出L-IVA(长程交互式视觉虚拟人)这一面向随机生成环境的目标导向规划评估任务与基准,并首次实现视频虚拟人主动智能的ORCA(在线推理与认知架构)框架。ORCA通过两大创新实现内部世界模型能力:(1)闭环OTAR循环(观察-思考-行动-反思),通过持续比对预测结果与实际生成内容,在生成不确定性下保持稳健状态追踪;(2)层次化双系统架构,系统2负责含状态预测的战略推理,系统1则将抽象计划转化为精确的模型专属动作指令。通过将虚拟人控制建模为POMDP问题,并实施基于结果验证的持续信念更新,ORCA实现了开放域场景下的自主多步骤任务完成。大量实验表明,ORCA在任务成功率和行为连贯性上显著优于开环与非反思基线,验证了我们受内部世界模型启发的设计能有效推动视频虚拟人从被动动画向主动目标导向行为演进。
质性研究面临关键的可靠性挑战:传统评分者一致性方法需多位人工编码员参与,耗时密集且常仅达中等一致性水平。我们提出一个基于大语言模型的主题分析多视角验证框架,该框架将集成验证与双重可靠性指标相结合:科恩卡帕(κ)用于评分者间一致性,余弦相似度用于语义一致性。本框架支持可配置的分析参数(1-6个种子,温度值0.0-2.0),提供含变量替换的自定义提示结构,并能从任意JSON格式中提取共识主题。作为概念验证,我们在迷幻艺术治疗访谈文本上评估三大主流LLM(Gemini 2.5 Pro、GPT-4o、Claude 3.5 Sonnet),每个模型独立运行六次。结果表明Gemini可靠性最高(κ=0.907,余弦相似度95.3%),其次是GPT-4o(κ=0.853,余弦相似度92.6%)和Claude(κ=0.842,余弦相似度92.1%)。三款模型均达到高度一致性(κ>0.80),验证了多轮集成方法的有效性。该框架成功实现跨轮次共识主题提取,Gemini识别出6个共识主题(一致性50-83%),GPT-4o识别5个主题,Claude识别4个主题。我们的开源实现为研究者提供透明可靠性指标、灵活配置和结构无关的共识提取功能,为可靠的AI辅助质性研究奠定方法论基础。
开源软件社区中的有害互动会降低贡献者参与度并威胁项目可持续性。要预防此类毒性对话的发生,需清晰把握有害对话的演变规律。然而现有主动审核策略多依赖人工操作,消耗社区维护者大量时间精力。为支持更可扩展的解决方案,我们从GitHub讨论区构建了包含159个脱轨毒性线程和207个非毒性线程的数据集。分析表明,通过张力触发点、情感转向及特定对话模式可预测毒性演变。 我们提出基于大语言模型的新型框架,采用两步提示流程预测GitHub对话脱轨:首先通过"由简至繁"提示生成对话动态摘要,继而利用摘要评估脱轨可能性。在Qwen和Llama模型上的实验显示,该策略在0.3决策阈值下分别达到0.901和0.852的F1分数,优于现有自然语言处理基线方法。在包含308个GitHub议题线程(65个毒性/243个非毒性)的外部验证集上最高取得0.797的F1分数。研究表明,结构化大语言模型提示能有效实现开源社区对话脱轨的早期检测,为可解释的主动审核提供技术支持。
焦点是摄影的基石,然而自动对焦系统常无法准确捕捉目标主体,用户往往需要在拍摄后重新调整焦点。我们提出了一种基于视频扩散模型的创新性后期对焦技术,能够实现逼真的焦点重定位。该方法仅需单张虚化图像,即可生成感知准确的焦点堆栈(以视频序列形式呈现),支持交互式焦点调整并开启多种下游应用场景。为支持本项研究及未来探索,我们发布了大规模真实手机拍摄环境下的焦点堆栈数据集。在各类复杂场景中,我们的方法在感知质量与鲁棒性方面均显著优于现有技术,为日常摄影中更先进的焦点编辑功能开辟了新路径。代码与数据集详见www.learn2refocus.github.io。