每日精选AI研究论文及翻译
记忆系统是实现LLM及AI智能体长期学习与持续交互的关键组件。然而在记忆存储与检索过程中,这些系统常出现记忆幻觉现象,包括虚构、错误、冲突和遗漏等。现有对记忆幻觉的评估主要采用端到端问答形式,难以定位幻觉产生的具体操作环节。为此,我们推出首个面向记忆系统的操作级幻觉评估基准HaluMem,通过定义记忆提取、记忆更新和记忆问答三项评估任务,全面揭示交互过程中不同操作阶段的幻觉行为。为支撑评估,我们构建了以用户为中心的多轮人机交互数据集HaluMem-Medium与HaluMem-Long,两者均包含约1.5万个记忆点及3.5千道多类型问题,单用户平均对话轮次达1.5k与2.6k轮,上下文长度超100万token,可评估不同上下文规模与任务复杂度下的幻觉表现。基于HaluMem的实证研究表明,现有记忆系统在提取和更新阶段易产生并积累幻觉,进而将误差传播至问答阶段。未来研究应致力于开发可解释、强约束的记忆操作机制,系统性地抑制幻觉并提升记忆可靠性。
近期深度研究智能体的进展表明,通过对外部信息源进行动态推理可实现自主知识构建。然而,现有方法依赖单一上下文范式,将所有信息累积在持续扩展的上下文窗口中,导致上下文窒息与噪声污染,限制了其在长周期任务中的有效性。我们提出IterResearch——一种创新的迭代式深度研究范式,将长周期研究重构为具有策略性工作空间重建的马尔可夫决策过程。该方法通过维护动态演进的研究报告作为记忆体,并定期整合研究洞见,使得推理能力在任意探索深度下保持稳定。我们进一步开发了效率感知策略优化(EAPO),该强化学习框架通过几何奖励折现机制激励高效探索,并借助自适应降采样实现稳定的分布式训练。大量实验表明,IterResearch在六项基准测试中相较现有开源智能体平均提升14.5个百分点,显著缩小了与前沿专有系统的差距。值得注意的是,该范式展现出前所未有的交互扩展能力,可延伸至2048次交互且性能实现跨越式提升(从3.5%至42.5%),同时作为有效的提示策略,在长周期任务上相较ReAct将前沿模型性能提升最高达19.2个百分点。这些发现确立了IterResearch作为长周期推理的通用解决方案,既能作为训练完成的智能体,也可作为前沿模型的提示范式。
近期以推理优先的模型(如OpenAI o1、DeepSeek R1)推动了对RLVR的再度关注。然而,该领域的进展主要由数学类任务(如AIME)主导,竞争性编程代码生成方向尚未得到充分探索,且数据构建获得的关注远少于强化学习算法设计。我们研究了如何构建RLVR数据集(即强化学习提示),并提出了一套在竞争性编程代码生成任务上表现优异的实用训练技术。我们的流程始于基于开源强模型进行监督微调,并融合通用任务与高难度推理数据。强化学习训练采用两阶段流程:首先在均匀分布的竞争性编程题库上,使用组相对策略优化算法(每提示8次 rollout),配合较短响应生成窗口(如监督微调阶段32k,本阶段24k)来扩展熵分布以缓解重复与截断问题;随后实施预组相对策略优化阶段:在精选的高难度题目集上,采用大采样预算(每提示64次 rollout)和硬聚焦课程策略——在训练全程持续保留最难实例。我们将该方法应用于Qwen2.5-32B模型,并在LeetCode和Codeforces周赛上进行防数据泄露评估。最终模型在同等规模模型中达到最优性能,与DeepSeek v3.1、豆包-1.5-思考等领先系统表现相当。我们还分析了扩展规律,在内部大规模混合专家模型上观察到显著的强化学习扩展效应。本研究提炼出针对竞争性编程代码生成的RLVR数据构建、熵扩展和课程设计的简明最佳实践。
我们推出STATION——一个模拟微型科研生态系统的开放世界多智能体环境。借助其扩展的上下文窗口,STATION中的智能体能够开展长期科研探索,包括阅读同行论文、提出假设、提交代码、执行分析及发表成果。值得注意的是,该系统不存在集中式协调机制——智能体可自由选择行动方案,在STATION内自主构建研究叙事。实验表明,STATION中的AI智能体在从数学到计算生物学乃至机器学习的广泛基准测试中均实现了最新最优性能,尤其在圆包装问题上显著超越AlphaEvolve。随着智能体开展自主研究、与同行互动并基于累积历史持续创新,呈现出丰富的研究叙事脉络。这些涌现的叙事中自然衍生出创新方法,例如一种用于单细胞RNA测序批次整合的新型密度自适应算法。STATION标志着在开放世界环境中通过涌现行为实现自主科学发现的第一步,代表着超越僵化优化范式的新范式。
我们推出PhysWorld框架,该框架通过物理世界建模实现从视频生成中学习机器人技能。近年来,视频生成模型能够根据语言指令和图像合成具有照片级真实感的视觉演示,这为机器人技术提供了强大却尚未充分开发的训练信号来源。然而,直接将生成视频中的像素运动映射到机器人会忽略物理规律,往往导致操作失准。PhysWorld通过将视频生成与物理世界重建相耦合来解决这一局限。给定单张图像和任务指令,我们的方法既能生成任务条件化视频,又能从视频中重建底层物理世界,同时通过基于物体的残差强化学习与物理世界模型,将生成的视频动作转化为符合物理规律的精准操作。这种协同作用将隐式视觉指导转化为可物理执行的机器人轨迹,无需真实机器人数据采集即可实现零样本泛化的机器人操作。在多样化现实任务上的实验表明,PhysWorld相较现有方法显著提升了操作精度。详情请访问项目网页:https://pointscoder.github.io/PhysWorld_Web/。
文本到图像模型已迅速从休闲创作工具发展为专业级系统,实现了前所未有的图像质量与真实感。然而,大多数模型仍被训练为将简短提示映射为精细图像,这导致稀疏文本输入与丰富视觉输出之间出现断层。此种不匹配降低了可控性——模型常随意补全缺失细节,偏向普通用户偏好,限制了专业应用的精确度。我们通过训练首个基于长结构化描述的开源文本到图像模型解决这一局限:每个训练样本均标注有相同的细粒度属性集。该设计最大化表达覆盖范围,并实现对视觉要素的解耦控制。为高效处理长描述,我们提出DimFusion融合机制,在不增加标记长度的前提下整合轻量化大语言模型的中间标记。同时引入文本瓶颈重建评估协议,通过评估真实图像在描述-生成循环中的重建质量,直接衡量可控性与表达能力,即使在现有评估方法失效的超长描述场景下仍适用。最终,我们通过训练大规模模型FIBO验证贡献,在开源模型中实现了最先进的提示对齐效果。模型权重已公开于https://huggingface.co/briaai/FIBO。
稀疏专家混合模型(MoE)因其能在不增加推理成本的前提下高效扩展模型能力,近年来被广泛采用于大规模语言模型。然而,在广泛下游任务上的评估表明,现有MoE大语言模型中的路由器存在普遍次优问题,导致其与最优路由之间存在显著性能差距(例如准确率相差10-20%)。本文提出通过将路由权重的流形与任务嵌入的流形对齐,可有效缩小这一差距并提升MoE大语言模型的泛化性能。我们的方法"路由流形对齐(RoMA)"在训练后目标中引入额外的流形正则化项,仅需对路由器进行轻量级微调(其他参数冻结)。具体而言,该正则化促使每个样本的路由权重在任务嵌入空间中接近其成功近邻(即路由权重能得出正确答案的样本)的路由权重,从而使面向相似任务的样本在各网络层共享相似的专家选择机制。在不同样本间建立任务与专家的绑定关系,对实现更好泛化能力至关重要。此外,RoMA展现了将任务理解(通过嵌入模型)与解决方案生成(通过MoE大语言模型)相统一的优势。实验中,我们使用RoMA对OLMoE、DeepSeekMoE和Qwen3-MoE的路由器进行微调。在多基准测试上的评估及与基线模型的广泛对比表明,RoMA带来了显著性能提升。
作为人类互动与信息交换的关键媒介,社交网络服务(SNS)对大型语言模型(LLMs)提出了独特挑战:异构工作负载、快速演变的网络用语与俚语,以及引发显著分布偏移的多语言、多文化语料库。监督微调(SFT)虽能实现模型专业化,但常引发分布内性能增益与分布外鲁棒性之间的"跷跷板效应",对轻量化模型尤为明显。为解决这些问题,我们推出RedOne 2.0——采用渐进式强化学习优先后训练范式开发的SNS导向型LLM,专为快速稳定适配而设计。该流程包含三个阶段:(1)基于精选SNS语料的探索性学习,建立初步对齐并识别系统性弱点;(2)针对性微调,对诊断出的能力缺口选择性应用SFT,同时混入少量通用数据以缓解遗忘;(3)精炼学习,重新应用以SNS为核心的强化学习信号,巩固改进效果并协调多任务间的权衡。在涵盖三大类任务的测试中,我们的40亿参数模型相较70亿参数次优基线平均提升2.41个指标点。此外,RedOne 2.0仅需不到原SFT核心方法RedOne一半的数据量,即实现相对基础模型平均8.74的性能提升,展现出轻量化规模下卓越的数据效率与稳定性。总体而言,RedOne 2.0为SNS场景的领域专用LLM建立了具有竞争力的成本效益基准,在提升能力的同时未牺牲鲁棒性。
多模态大语言模型(MLLM)的出现将AI能力扩展至视觉模态,然而现有评估基准仍局限于单视频理解,忽视了现实场景(如体育赛事分析与自动驾驶)中对多视频理解的关键需求。为填补这一重要空白,我们推出MVU-Eval——首个用于评估MLLM多视频理解能力的综合基准。该基准通过来自多元领域的4,959个视频中的1,824个精心构建的问答对,系统评估八大核心能力,涵盖基础感知任务与高阶推理任务。这些能力严格对标自动驾驶系统中的多传感器融合、跨视角体育分析等实际应用场景。通过对顶尖开源与闭源模型的广泛测试,我们揭示了当前MLLM在多视频理解能力上存在的显著性能差异与局限。本基准将公开共享以推动后续研究。
处理复杂任务通常需要大型语言模型生成冗长的多步推理链。已有研究表明,对单个推理步骤的正确性进行验证能够进一步提升模型在此类任务中的表现与效率,并增强解决方案的可解释性。然而,现有验证方法(如过程奖励模型)存在计算成本高昂、适用领域受限或需要大规模人工/模型生成标注等局限性。为此,我们提出一种基于数据驱动不确定性评分的轻量级推理步骤验证方案。通过训练基于Transformer的不确定性量化头部模块,利用冻结LLM的内部状态来估计其生成过程中推理步骤的不确定性。该方法完全自动化:目标标签可由更大规模LLM(如DeepSeek R1)生成,或由原模型以自监督方式产生。该头部模块参数量不足1000万,兼具高效性与轻量化特性。在数学、规划、常识问答等多个领域,其性能媲美甚至超越参数量达810倍的过程奖励模型。我们的研究结果表明,LLM内部状态编码了其不确定性,可作为推理验证的可靠信号,为构建可扩展、泛化性强的自省式LLM指明了新方向。
近期深度循环语言模型的研究表明,循环结构能够将训练时的计算量与参数量同测试时的计算需求解耦。本文探索了如何将现有预训练的非循环语言模型转化为深度循环模型。我们发现,通过采用渐进式循环训练课程,在训练过程中逐步增加模型的有效深度,可以在保持性能的同时降低总体计算成本。在数学领域的实验中,相较于直接对原始非循环语言模型进行后训练,将预训练模型转化为循环结构能在相同计算预算下获得更优的性能表现。
大语言模型(LLM)的软思考推理范式在某些场景下能超越传统的离散令牌链式思考(CoT)推理,彰显出其研究与应用价值。然而,尽管离散令牌CoT推理模式可通过群体相对策略优化(GRPO)等策略优化算法进行强化,将软思考模式与强化学习(RL)结合仍存在挑战。这一难点源于向软思考令牌注入随机性以及相应策略更新的复杂性,导致此前软思考与GRPO的结合尝试通常表现不及离散令牌GRPO方法。为充分释放软思考潜力,本文提出新型策略优化算法SofT-GRPO,用于强化软思考推理模式下的LLM。该算法通过对数概率注入Gumbel噪声,采用Gumbel-Softmax技术避免软思考令牌超出预训练嵌入空间,并在策略梯度中运用重参数化技巧。我们在1.5B至7B参数的基础LLM上进行实验,结果表明:SofT-GRPO使软思考LLM在Pass@1指标上略优于离散令牌GRPO(平均准确率提升0.13%),同时在Pass@32指标上实现显著提升(平均准确率提高2.19%)。代码与权重已开源于https://github.com/zz1358m/SofT-GRPO-master。
我们提出了一种基于可验证环境自适应强化学习(RLVE)的方法,该方法通过可验证环境动态生成问题并提供算法可验证的奖励机制,从而扩展语言模型(LM)的强化学习规模。RLVE使每个可验证环境能够根据策略模型在训练过程中的能力水平,动态调整其问题难度分布。相比之下,静态数据分布往往因问题对策略模型而言过于简单或困难,导致学习信号逐渐消失。为实施RLVE,我们开发了RLVE-Gym——一个包含400个经过人工环境工程精心设计的可验证环境的大规模套件。通过RLVE-Gym的实验表明,环境扩展(即增加训练环境集合)能持续提升模型的泛化推理能力。基于当前最强的15亿参数推理语言模型,在RLVE-Gym全部400个环境中进行联合训练的RLVE方法,在六项推理基准测试中实现了3.37%的绝对平均提升。相比之下,延续该语言模型原有强化学习训练仅获得0.49%的平均绝对提升,尽管其计算消耗超过RLVE三倍。我们已公开代码。
基于大语言模型(LLM)的自主智能体虽已实现推理与问题解决能力的革命性突破,但其在训练后即处于静态,无法像智能生命那样通过部署过程中的经验持续成长。我们提出经验驱动的前向学习框架(FLEX),这一无需梯度的学习范式使LLM智能体能够借助累积经验实现持续进化。具体而言,FLEX通过与环境交互过程中对成功与失败的持续反思,构建起结构化的经验库,从而实现可扩展、可传承的智能体进化。该框架在数学推理、化学逆合成及蛋白质适应性预测任务中取得显著提升(在AIME25上提升达23%,USPTO50k上提升10%,ProteinGym上提升14%)。我们进一步揭示了经验增长的显著缩放定律以及跨智能体的经验传承现象,标志着可扩展、可传承的持续智能体进化迈出关键一步。项目页面:https://flex-gensi-thuair.github.io。
我们推出llama-embed-nemotron-8b——一款开源权重的文本嵌入模型,该模型截至2025年10月21日在多语言海量文本嵌入基准(MMTEB)排行榜上实现了最先进的性能。尽管近期模型展现出强劲表现,但其训练数据与方法论往往未完全公开。为此,我们通过开发完全开源的模型、公开其权重与详细消融研究,并计划分享精编训练数据集来解决这一问题。我们的模型在所有主流嵌入任务(包括检索、分类和语义文本相似度STS)中均表现卓越,尤其在低资源语言和跨语言设置等复杂多语言场景下优势显著。这一顶尖性能得益于新颖的1610万查询-文档对数据组合,其中770万样本来自公共数据集,840万则通过各类开源大语言模型合成生成。我们的核心贡献之一是通过详细消融研究分析了关键设计选择,包括对比损失实现的比较、合成数据生成策略评估以及模型融合的影响。llama-embed-nemotron-8b作为指令感知模型,支持用户自定义指令以增强特定用例的性能。这种顶尖性能、广泛适用性与用户驱动灵活性的结合,使其能够成为通用文本嵌入解决方案。
从自然语言生成可编辑的3D CAD模型仍具挑战性,现有文本转CAD系统或生成网格模型,或依赖稀缺的设计历史数据。我们提出NURBGen——首个通过非均匀有理B样条(NURBS)直接从文本生成高保真3D CAD模型的框架。通过微调大语言模型,该系统可将自由格式文本转换为包含NURBS曲面参数(控制点、节点向量、阶数和有理权重)的JSON表示,并借助Python直接转换为BRep格式。我们进一步提出混合表示法,将未修剪NURBS与解析图元结合,以更稳健地处理修剪曲面和退化区域,同时降低标记复杂度。此外还推出partABC数据集,该精选子集源自ABC数据集,包含独立CAD组件,并通过自动化标注流程添加详细描述。专家评估证实,NURBGen在多样化提示词上表现优异,在几何保真度与尺寸精度方面超越现有方法。代码与数据集将公开发布。
尽管可验证奖励的强化学习(RLVR)在训练大型推理模型方面表现出强大能力,但其训练动态存在一个关键挑战:RL过拟合现象——模型虽能获得训练奖励,却丧失了泛化能力。我们的分析表明,这一现象由策略过度特化与训练过程中产生的多样化解决方案的灾难性遗忘共同驱动。标准优化方法会丢弃这些宝贵的跨步骤策略多样性。为解决此问题,我们提出基于迭代策略初始化的自我优化框架RLoop。该框架将标准训练过程转化为良性循环:首先利用RL从给定策略出发探索解空间,随后筛选成功轨迹创建专家数据集,通过拒绝采样微调(RFT)优化初始策略,为下一轮迭代生成更优的起点。这种通过迭代重初始化实现的探索-利用循环,有效将瞬态策略变异转化为稳健的性能提升。实验表明,RLoop能有效缓解遗忘现象并显著提升泛化能力,相比原始RL方法平均准确率提高9%,pass@32指标提升超15%。
强化学习(RL)常被认为以牺牲记忆知识为代价来提升语言模型的推理与泛化能力。我们通过观察发现,RL增强模型在纯粹的知识召回任务(尤其是需要遍历层级化结构知识的任务,如医学代码查询)中 consistently 优于基座模型和监督微调(SFT)模型,这一现象对传统观点提出了挑战。我们推测这些提升并非源于新获取的数据,而是源于模型在参数空间内导航和搜索既有知识层次结构的程序性技能得到改善。为验证该假设,我们证明通过结构化提示(明确引导SFT模型进行层级遍历)可弥补大部分性能差距(在MedConceptsQA任务中将DeepSeek-V3/R1的差距从24个百分点缩减至7个百分点)。进一步研究发现,虽然提示能提升最终答案准确率,但RL增强模型在深度检索任务中仍保持更优的程序路径召回能力。最后,我们的层级内部激活分析表明:尽管事实表征(如"代码57.95指代尿路感染"的语句激活)在SFT与RL模型间保持较高余弦相似度,但查询表征(如"代码57.95是什么")却出现显著分化,这表明RL主要改变的是模型遍历知识的方式,而非知识表征本身。
近期多模态推理的进展主要依赖于未公开数据集和专有数据合成方案,如何系统化构建大规模视觉中心推理数据集——特别是针对超越视觉数学的任务——仍存在开放性问题。本研究提出了一种新型推理数据生成框架,涵盖多样化技能与复杂度层级,包含超过100万道高质量合成视觉中心问题。该数据集同时包含偏好数据与支持离线和在线强化学习的指令提示。我们的合成框架分两阶段推进:(1)规模化;(2)复杂化。通过利用视觉语言模型和推理大语言模型的两阶段流程合成推理轨迹,为视觉语言模型生成思维链轨迹,捕捉前沿推理模型中丰富的多样化认知行为。值得注意的是,实验表明基于我们数据微调的Qwen2.5-VL-7B模型在所有评估的视觉中心基准测试中均超越开源基线模型,甚至在V* Bench、CV-Bench和MMStar-V上优于MiMo-VL-7B-RL等强封闭数据模型。最令人惊讶的是,尽管完全以视觉为中心,我们的数据在纯文本推理(MMLU-Pro)和音频推理(MMAU)任务上展现出正向迁移能力。同样,在未包含视频或具身视觉数据的情况下,我们在单证据具身问答基准(NiEH)评估中观察到显著提升。最后,我们利用该数据分析了完整视觉语言模型后训练流程。实证分析表明:(i)基于含非线性推理轨迹的高质量数据进行监督微调是在线强化学习有效的关键;(ii)分阶段离线强化学习可匹配在线强化学习性能同时降低计算需求;(iii)对高质量数据精心实施监督微调能显著提升跨领域、跨模态的迁移能力。
能够操控用户界面的AI智能体具有彻底改变人类与数字设备交互方式的潜力。为加速这一变革,两大基础要素至关重要:一是能让智能体实现复杂且符合人类需求目标的高质量数据集,二是可供研究者和开发者快速提升智能体性能的稳健评估方法。本文推出DigiData——一个专为移动端控制智能体训练设计的大规模、高质量、多模态数据集。与现有基于非结构化交互生成目标的数据集不同,DigiData通过系统性探索应用程序功能精心构建,具备更丰富的多样性和更高的目标复杂度。同时,我们提出DigiData-Bench基准测试,用于评估智能体在真实世界复杂任务中的表现。研究证明,当前广泛使用的步骤准确率指标难以可靠评估移动控制智能体,为此我们提出动态评估协议和AI驱动的评估方法作为严格的替代方案。这些成果将显著推动移动控制智能体的发展,为更直观高效的人机交互铺平道路。
音乐诱发绘画是一种独特的艺术实践,指在音乐影响下创作视觉艺术作品。评估画作是否忠实反映其灵感来源的音乐,构成了一项具有挑战性的感知评价任务。现有方法主要依赖情感识别模型来评估音乐与绘画的相似性,但此类模型会引入显著噪声,且忽略了情感之外更广泛的感知线索。为突破这些局限,我们提出了一种新颖的音乐诱发绘画评估框架,直接建模音乐与视觉艺术之间的感知连贯性。我们发布了MPD数据集——首个由领域专家基于感知连贯性标注的大规模音乐-绘画配对数据集。为更好地处理模糊案例,我们进一步收集了成对偏好标注。基于该数据集,我们提出MPJudge模型,通过基于调制的融合机制将音乐特征整合到视觉编码器中。为有效学习模糊案例,我们采用直接偏好优化进行训练。大量实验表明,本方法优于现有方案。定性结果进一步显示,我们的模型能更精准识别绘画中与音乐相关的区域。
大语言模型的快速发展推动了众多应用,但高效的单批次推理仍是设备端智能的关键。尽管FPGA具备细粒度数据控制和高能效优势,但近期GPU优化已缩小了其差距,尤其在基于算术运算的场景下。为此,我们利用FPGA丰富的片上存储资源,通过查表操作将LLM推理从算术计算转向存储计算。本文提出LUT-LLM——首个通过向量化内存操作实现1B+大语言模型推理的FPGA加速器。分析表明激活-权重协同量化是最优方案,其技术支撑包括:(1) 带宽感知并行质心搜索;(2) 高效二维查表机制;(3) 最小化数据缓存的时空混合架构。在AMD V80 FPGA上对定制化Qwen 3 1.7B模型的实测显示,LUT-LLM较AMD MI210延迟降低1.66倍,能效较NVIDIA A100提升1.72倍,并可扩展至32B模型,实现较A100 2.16倍的能效增益。
得益于遵循自然语言指令的能力,视觉-语言-动作模型在具身人工智能领域日益普及,这延续了其前身——大语言模型和视觉语言模型取得的广泛成功。本文系统梳理了VLA模型发展进程中的十大核心里程碑:多模态融合、推理能力、数据构建、评估体系、跨机器人动作泛化、运行效率、全身协调、安全性保障、智能体架构以及人机协作。我们还深入探讨了空间理解、世界动态建模、后训练优化和数据合成等新兴技术趋势——这些方向共同推动着VLA模型实现上述里程碑目标。通过系统分析,我们希望引导学界关注那些能加速VLA模型获得更广泛适用性的研究路径。
基于扩散模型的文生图技术虽能生成高质量图像,但其输出与人类偏好的对齐仍具挑战。我们重新审视了基于扩散模型的直接偏好优化(DPO)方法,发现一个关键缺陷:扩大偏好间隔未必能提升生成质量。具体而言,标准Diffusion-DPO目标函数可能同时增加优胜分支和劣汰分支的重建误差。当劣汰分支的退化程度加剧时,即使偏好间隔扩大,优胜分支也会受到负面影响。为此,我们提出Diffusion-SDPO——一种通过自适应缩放劣汰分支梯度来保护优胜分支的安全更新规则。一阶分析推导出的闭式缩放系数可确保在每一步优化中,优选输出的误差保持非递增。该方法结构简洁、模型无关,能广泛兼容现有DPO式对齐框架,且仅增加边际计算开销。在标准文生图基准测试中,Diffusion-SDPO在自动化偏好度、审美评价及提示词对齐指标上均持续优于现有偏好学习基线。代码已开源:https://github.com/AIDC-AI/Diffusion-SDPO。
我们提出DIMO,一种能够从单张图像生成任意物体多样化三维运动的生成式方法。该方法的核心思想是利用训练成熟的视频模型中丰富的先验知识,提取通用运动模式并将其嵌入共享的低维潜空间。具体而言,我们首先生成包含多样化运动的同一物体的多段视频,随后将每种运动编码为潜向量,并训练共享运动解码器来学习由结构化紧凑运动表征(即神经关键点轨迹)所描述的运动分布。接着,这些关键点驱动规范化的3D高斯模型并融合几何与外观建模。在推理阶段,通过已学习的潜空间可单次前向传播即时采样多样3D运动,并支持三维运动插值、语言引导运动生成等多项创新应用。项目页面详见https://linzhanm.github.io/dimo。
尽管经过强化学习(RL)后训练的视觉语言模型(VLMs)展现出卓越的通用推理能力,但其评估通常局限于语言主导型任务(如数学推理)。这引出一个关键问题:对于基础VLM初始表现失败的视觉中心型空间任务,RL后训练能否真正拓展其固有能力边界?为探究此问题,我们提出Ariadne框架——通过可精确控制任务难度(如路径长度、转弯次数)的合成迷宫进行多步空间推理。利用这一可控环境,我们采用带验证奖励的强化学习(RLVR)在难度感知课程中训练VLMs。令人惊讶的是,经过RLVR后训练的VLM在基础模型得分为0%的问题集上实现了超过50%的准确率,证明我们的方法拓展了模型的初始能力边界。为评估现实可行性,我们在实际基准测试中评估了分布外(OOD)泛化能力。尽管仅使用合成迷宫样本进行训练,Ariadne在MapBench(如博物馆导航)和ReasonMap(地铁换乘任务)上分别实现了16%和24%的平均零样本提升,这表明我们的方法不仅拓宽了模型的基础能力极限,还增强了其在现实空间推理任务中的泛化能力。我们承认本研究受限于预训练数据的不透明性而聚焦于后训练阶段,期待我们的工作能推动针对能力边界拓展的专项对齐研究。
优化大规模软件仓库的性能需要代码推理与软件工程(SWE)领域的专业知识,在保证程序正确性的同时减少运行时间。然而现有基准测试大多关注"修复什么"而非"如何修复"。我们推出SWE-fficiency基准测试,用于评估真实工作负载下的仓库级性能优化能力。该测试套件涵盖九个广泛使用的数据科学、机器学习和HPC仓库(如numpy、pandas、scipy)中的498项任务:给定完整代码库和低速工作负载,智能体需探究代码语义、定位瓶颈及相关测试,并生成能匹配或超越专家加速效果且通过单元测试的补丁。为实现这种"如何修复"的评估,我们通过自动化流水线从GitHub拉取请求中采集性能优化编辑,结合关键词过滤、静态分析、覆盖度工具与执行验证,既确认专家加速基准,又识别相关仓库单元测试。对前沿智能体的实证评估显示其表现显著欠佳:平均仅达到专家加速效果的0.15倍。智能体在定位优化机会、跨函数执行推理以及保持编辑正确性方面存在明显不足。我们公开此基准测试及配套数据流水线,以推动自动化性能工程与长周期软件推理的研究。
视频异常理解(VAU)旨在对视频中的异常事件提供精细化解析与语义层面的认知,突破了传统方法仅关注异常检测与定位的局限性。然而现有研究往往忽略对异常行为理解至关重要的深层因果关系与物体间交互。本文提出VADER——一种基于大语言模型的视频异常理解框架,通过融合关键帧物体关联特征与视觉线索来增强视频异常认知能力。具体而言,VADER首先采用异常评分器计算逐帧异常分数,继而通过上下文感知采样(CAES)策略捕捉每个异常事件的因果上下文。通过关系特征提取器与对比式关系编码器(CORE)协同建模动态物体交互,生成紧凑的关系表征以供下游推理。这些视觉与关系线索与大语言模型集成,可生成具有因果依据的详细描述,并支持稳健的异常相关问答。在多个真实场景VAU基准测试上的实验表明,VADER在异常描述、解释和因果推理任务中均取得优异结果,推动了可解释视频异常分析的前沿发展。
对话情绪识别(ERC)是理解人类情绪并实现自然人机交互的关键任务。尽管大语言模型(LLMs)近期在该领域展现出巨大潜力,但其捕捉显性情绪与隐性情绪内在联系的能力仍存在局限。我们提出了一种新颖的ERC训练框架PRC-Emo,该框架融合提示工程、示例检索和课程学习三大模块,旨在探究LLMs能否有效感知对话情境中的情绪。具体而言,我们基于显隐性情绪线索设计情绪敏感型提示模板,以更好地引导模型理解说话者的心理状态;构建了首个专用于ERC的示例检索库,其中既包含广泛使用数据集中的训练样本,也有LLMs生成并经人工校验的高质量对话实例;此外,我们在LoRA微调过程中引入课程学习策略,通过量化同一说话者与不同说话者话语间的加权情绪变化来划分对话样本难度等级,进而按由易到难的顺序组织训练。在IEMOCAP和MELD两个基准数据集上的实验结果表明,我们的方法取得了最新的最优性能,证明了该框架在增强基于LLM的情绪理解能力方面的有效性与泛化性。
近期,大型语言模型在多模态语音识别领域取得显著进展,涵盖听觉语音识别(ASR)、视觉语音识别(VSR)及视听融合语音识别(AVSR)。然而,现有基于LLM的方法通常独立处理各项任务,需训练多个独立模型,导致计算与部署资源消耗增加,且未能充分利用跨任务协同潜力。这些方法还依赖固定速率的分词压缩机制,限制了精度与效率平衡的灵活性。上述局限凸显了对支持ASR、VSR和AVSR任务并实现弹性推理的统一框架的需求。为此,我们提出Omni-AVSR——一种融合高效多粒度训练与参数有效性适配的统一视听大模型。具体而言,我们采用套娃表示学习范式,在多种音频与视觉粒度上进行高效训练,降低其固有训练资源消耗;同时探索三种基于LoRA的主干网络适配策略,平衡共享与任务专属特性。在LRS2和LRS3数据集上的实验表明,Omni-AVSR仅需训练单一模型,即以显著更低的训练和部署资源达到与最先进基线相当或更优的准确率。该模型在声学噪声环境下保持稳健,我们进一步分析了其随LLM规模扩大的缩放特性,为性能与效率的权衡关系提供新见解。