每日精选AI研究论文及翻译
我们推出Ling 2.0系列——一个基于"每次激活皆提升推理能力"原则构建的面向推理的语言基础模型。该系列采用统一的混合专家(MoE)范式,设计参数规模从数百亿至一万亿,重点实现高稀疏性、跨尺度一致性及基于经验缩放定律的高效性。系列包含三款非思维(指令)模型:Ling-mini-2.0、Ling-flash-2.0和Ling-1T,总参数量从160亿到1万亿,相比稠密模型最高可实现7倍激活计算效率。Ling 2.0融合了模型架构、预训练、后训练与基础设施的协同创新:采用支持MTP的高稀疏MoE实现高效推理,配备面向推理的数据与训练中程思维链激活,基于强化学习的微调(DFT、Evo-CoT),以及全尺度FP8训练与细粒度异构流水线。在万亿规模上,Ling-1T确立了推理精度与计算效率的新帕累托前沿,证明稀疏激活与推理目标精准对齐时,可实现可扩展的高效智能。整体而言,Ling 2.0为推进未来推理与思维模型(包括基于同架构的Ring系列)提供了连贯、开放且高效的基础框架。
由生成模型参数化的隐式策略,如扩散策略,已成为机器人领域策略学习和视觉-语言-动作模型的标准范式。然而,这类方法常面临计算成本高、暴露偏差和推理动态不稳定等问题,导致在分布偏移下出现策略发散。基于能量的模型通过端到端学习能量景观并建模平衡动力学,有效改善了鲁棒性并减少暴露偏差,但基于能量的策略参数化方法长期以来难以有效扩展。近期基于能量的变换器研究证明了该类模型在高维空间的扩展能力,但其在物理实体模型中解决核心挑战的潜力尚未得到充分探索。我们提出新型能量架构EBT策略,成功解决了机器人和现实场景中的核心问题。在仿真与真实任务中,EBT策略始终优于基于扩散的策略,同时所需训练和推理计算量更少。值得注意的是,在某些任务中仅需两次推理步骤即可收敛,相较扩散策略的100步实现了50倍缩减。更引人注目的是,EBT策略展现出前所未有的涌现能力,例如仅通过行为克隆而无需显式重试训练,即可实现失败动作序列的零样本恢复。通过利用其标量能量进行不确定性感知推理和动态计算分配,EBT策略为分布偏移下实现鲁棒、可泛化的机器人行为提供了可行路径。
测试时扩展(TTS)技术通过推理阶段的额外计算分配来提升大语言模型(LLM)性能,通常采用并行、串行或混合扩展方式。然而既有研究往往预设固定的协作架构(如拓扑结构)和单一模型使用模式,忽略了最优架构与模型组合会随任务动态变化的特性。为此,我们首次系统研究了固定预算下TTS中计算最优的模型组合与架构搜索问题,将其形式化为多LLM协作图模型:节点编码角色与LLM模型分配,边捕捉信息流动。该问题面临双重挑战:(i)组合搜索空间过于庞大;(ii)任务特性需要定制化设计。我们通过概率图重构该问题,并基于预实验总结出TTS协作图的三项经验规律。基于这些发现,我们提出Agent-REINFORCE框架,通过LLM智能体强化REINFORCE流程,将“采样-梯度-更新”映射为“采样-反馈-更新”——其中文本化反馈作为梯度更新概率图,从而高效搜索最优多LLM协作图。实验表明,该方法在样本效率和搜索性能上均优于传统及LLM基线,并能有效平衡准确率与推理延迟的双重目标。
我们推出[Cosmos-Predict2.5]——新一代宇宙世界物理人工智能基础模型。该模型基于流式架构构建,将文本生成世界、图像生成世界和视频生成世界三大功能统一于单一模型中,并利用物理AI视觉语言模型[Cosmos-Reason1]实现更丰富的文本接地与更精细的世界模拟控制。通过2亿条精选视频片段训练及基于强化学习的后训练优化,[Cosmos-Predict2.5]在视频质量与指令对齐方面较[Cosmos-Predict1]实现显著提升,同步发布20亿和140亿参数规模的模型版本。这些能力为机器人及自主系统提供了更可靠的合成数据生成、策略评估与闭环仿真支持。 我们进一步推出控制网络风格框架[Cosmos-Transfer2.5],实现仿真到现实及现实到现实的世界转换。尽管模型规模仅为[Cosmos-Transfer1]的1/3.5,该框架仍能提供更高保真度与强鲁棒性的长时序视频生成能力。这些突破共同确立了[Cosmos-Predict2.5]与[Cosmos-Transfer2.5]作为扩展具身智能的通用工具地位。为加速物理AI领域的研究部署,我们在NVIDIA开放模型许可下开源代码、预训练模型与精选基准测试集(https://github.com/nvidia-cosmos/cosmos-predict2.5 与 https://github.com/nvidia-cosmos/cosmos-transfer2.5)。期待这些开放资源能降低技术应用门槛,推动下一代具身智能建设的创新发展。
多模态生成模型的最新进展显著推动了图像编辑技术的提升。然而,当前生成模型在处理需要隐式推理的多样化复杂图像编辑任务时仍存在困难,这凸显了建立系统性评估各类推理场景下模型性能的综合基准的必要性。现有基准主要关注现实场景中的单对象属性转换,虽然有效但面临两大挑战:(1)大多忽略了多对象交互以及涉及人为规则的虚拟场景,而这些在现实应用中十分常见;(2)仅依赖文本参考评估生成图像,可能导致系统性误判,尤其在复杂推理场景中。为此,本研究提出统一推理式图像编辑评估基准UniREditBench,包含2,700个精心构建的样本,覆盖现实与虚拟场景的8个主维度和18个子维度。为提升评估可靠性,我们引入多模态双参考评估机制,为每个样本提供文本和真实图像双重参考。此外,我们设计了自动化多场景数据合成流程,构建了包含高质量思维链推理标注的大规模合成数据集UniREdit-Data-100K。通过在该数据集上微调Bagel模型,我们开发出UniREdit-Bagel,其在域内和域外设置下均展现出显著性能提升。通过对开源与闭源图像编辑模型的全面基准测试,我们揭示了它们在不同维度上的优势与不足。
重光照是一项兼具实用需求与艺术价值的关键任务,而近期扩散模型通过实现丰富可控的照明效果展现出强大潜力。然而,由于这类模型通常在语义隐空间中进行优化,其邻近性无法保证视觉空间中的物理正确性,因此常产生不真实的结果,如过曝高光、错位阴影和错误遮挡。我们提出UniLumos来解决这一问题——这是一个面向图像与视频的统一重光照框架,将RGB空间的几何反馈引入流匹配主干网络。通过使用从模型输出中提取的深度图和法线图进行监督,我们显式地将光照效果与场景结构对齐,从而增强物理合理性。但此类反馈需要高质量输出在视觉空间中进行监督,使得标准的多步去噪方法计算成本高昂。为缓解这一问题,我们采用路径一致性学习,使监督在少步数训练机制下仍能保持有效性。为实现细粒度重光照控制与监督,我们设计了结构化六维标注协议以捕捉核心光照属性。基于此,我们提出LumosBench——一个解耦的属性级基准测试,通过大视觉语言模型评估光照可控性,实现对各个维度重光照精度的自动化可解释评估。大量实验表明,UniLumos在实现最先进重光照质量的同时显著提升物理一致性,并为图像和视频重光照带来20倍加速。代码已开源于https://github.com/alibaba-damo-academy/Lumos-Custom。
图神经网络通过自底向上的消息传递机制运作,这与人类视觉感知存在根本差异——后者能够直觉性地先捕捉整体结构。我们探索了视觉模型在图结构理解中未被充分重视的潜力,发现其在经典基准测试中能达到与图神经网络相媲美的性能,同时展现出截然不同的学习模式。这种差异性行为,加上现有基准测试将领域特征与拓扑理解相混淆的局限性,促使我们推出GraphAbstract基准。该基准通过识别组织原型、检测对称性、感知连接强度及定位关键元素等任务,评估模型像人类一样感知全局图属性的能力。实验结果表明:在需要整体结构理解的任务中,视觉模型显著优于图神经网络,并能在不同图规模下保持泛化能力;而图神经网络则难以进行全局模式抽象,且性能随图规模增大而下降。本研究表明视觉模型具有卓越但未被充分利用的图结构理解能力,尤其适用于需要全局拓扑感知和尺度不变推理的问题。这些发现为开发更有效的图基础模型开辟了新途径,特别适用于以整体模式识别为主导的任务场景。
大型推理模型(LRMs)在复杂推理任务中展现出强大能力,但在依赖证据的事实性问题上其边际收益有限。我们发现这种局限性部分源于"推理-答案命中鸿沟":模型在推理过程中识别出正确事实,却未能将其整合到最终回答中,从而降低了事实忠实度。为解决该问题,我们提出MR-ALIGN——一种基于元推理的对齐框架,无需依赖外部验证器即可提升事实准确性。该框架通过量化模型思考过程中的状态转移概率,构建具有转移感知的隐式奖励机制,在原子化思维片段层面强化有益推理模式并抑制缺陷模式。这种重加权策略将词元级信号转化为概率感知的片段评分,促使推理轨迹更连贯且更有利于事实准确性。在四个事实问答数据集和一项长文本事实性基准测试上的实证研究表明,MR-ALIGN能持续提升准确性与真实性,同时减少误导性推理。这些结果凸显了对推理过程本身(而非仅对输出结果)进行对齐,对于提升LRMs事实性具有关键意义。
统一多模态模型已成为无缝融合文本与图像理解及生成能力的重要范式。然而现行评估方法往往孤立地对待这些能力,导致多模态输入输出任务主要通过单模态推理进行评分——文本基准侧重语言推理,而视觉基准关注像素层面的推理结果。为此我们提出ROVER基准,旨在应对测试双向跨模态推理的迫切需求,这种利用一种模态引导、验证或优化另一模态输出的能力,是实现统一多模态智能愿景的核心。ROVER作为人工标注的基准数据集,专门针对双向跨模态推理设计,包含基于1876张图像的1312项任务,涵盖两种互补场景:面向视觉生成的语言增强推理评估模型能否利用文本提示和推理链指导精确的图像合成,面向语言生成的视觉增强推理检验模型能否通过生成中间可视化来强化问答任务的推理过程。通过对17个统一模型的实验,我们获得两个关键发现:(i)跨模态推理决定视觉生成质量,交错式模型显著优于非交错式模型,值得注意的是,单纯组合强单模态模型无法实现可比推理能力;(ii)模型在物理推理与符号推理间存在割裂:能成功解读具象概念却难以构建符号任务的视觉抽象,错误推理会损害性能。这些结果表明双向跨模态推理是实现真正全模态生成能力的关键前沿。
运动模仿是实现仿人机器人运动的一种前景广阔的方法,可使智能体获得类人行为。现有方法通常依赖AMASS等高质量运动捕捉数据集,但这些数据稀缺且昂贵,限制了方法的可扩展性与多样性。近期研究尝试通过转换大规模网络视频(如Humanoid-X)来扩大数据采集规模,但常引入漂浮、穿透、足部滑移等物理伪影,阻碍了稳定模仿。为此,我们提出PHUMA——基于物理约束的仿人运动数据集,该方案在利用大规模人类视频数据的同时,通过精细数据筛选与物理约束的重定向技术解决物理伪影问题。PHUMA通过强制关节限制、确保地面接触并消除足部滑移,生成兼具大规模与物理可靠性的运动数据。我们在两种条件下评估PHUMA:(1)对自录测试视频中未见运动的模仿;(2)仅基于骨盆引导的路径跟随。两种场景下,基于PHUMA训练的策略均优于Humanoid-X和AMASS,在多样化运动模仿方面取得显著提升。代码已开源:https://davian-robotics.github.io/PHUMA。
当前基于运动条件的视频生成方法存在严重延迟(每视频数分钟)与非因果处理的问题,阻碍了实时交互。我们提出MotionStream,可在单GPU上实现亚秒级延迟与最高29 FPS的流式生成。该方法首先通过运动控制增强文本到视频模型,生成符合全局文本提示与局部运动引导的高质量视频,但无法进行实时推理。为此,我们通过带分布匹配蒸馏的自强制学习,将这种双向教师模型蒸馏为因果学生模型,实现实时流式推理。生成长时间乃至无限时长视频时面临若干关键挑战:(1)弥合有限长度训练与无限时长外推的领域差距;(2)通过防止误差累积维持高质量输出;(3)在上下文窗口持续增长时保持快速推理,避免计算成本增加。本方法的核心是引入精心设计的滑动窗口因果注意力机制与注意力锚点。通过训练阶段结合注意力锚点与KV缓存滚动的自展开策略,我们以固定上下文窗口准确模拟推理时的外推过程,实现任意长度视频的恒速生成。我们的模型在运动跟随与视频质量方面达到最优效果,同时提速两个数量级,独有能力实现无限长度流式生成。借助MotionStream,用户可实时绘制轨迹、控制摄像机或迁移运动,并即时观看生成效果,真正实现交互式体验。
我们推出LongCat-Flash-Omni——一款拥有5600亿参数的开源全模态尖端模型,专精实时音视频交互。该模型采用课程启发式渐进训练策略,从简单到复杂逐步推进多模态序列建模任务,在保持强大单模态能力的同时获得全面多模态理解能力。基于采用高性能零计算专家捷径连接混合架构的LongCat-Flash模型,LongCat-Flash-Omni集成了高效多模态感知与语音重建模块。尽管参数量高达5600亿(激活参数270亿),该模型仍能实现低延迟实时音视频交互。针对训练基础设施,我们开发了模态解耦并行方案,专门应对大规模多模态训练中固有的数据与模型异质性挑战。这一创新方法能维持纯文本训练90%以上的吞吐量,展现出卓越效率。大量评估表明,LongCat-Flash-Omni在开源模型的全模态基准测试中达到领先性能,同时在文本、图像、视频理解以及音频理解与生成等广泛模态专项任务中表现出高度竞争力。我们全面阐述了模型架构设计、训练流程与数据策略,并将模型开源以促进学界后续研发。
近日,大型语言模型(LLMs)通过自主集成外部工具进行协同推理,展现出卓越的问题解决能力。然而由于多模态信息固有的复杂性与多样性,如何使多模态大语言模型(MLLMs)在推理过程中灵活高效地调用外部工具仍是一个探索不足的挑战。本文提出ToolScope——一种智能代理框架,通过引入专用感知工具来统一全局规划与局部多模态感知,以缓解长视野视觉问答任务中的视觉上下文退化问题。该框架包含三大核心组件:全局导航器作为"望远镜"提供高层策略指导;代理执行器通过集成搜索、代码和感知三类外部工具迭代增强MLLMs的局部感知能力;响应合成器则将推理过程整合为连贯的用户友好型输出。我们在跨领域的四个VQA基准(包括VQA 2.0、ScienceQA、MAT-Search和MathVista)上评估ToolScope,其展现出强大的泛化能力,在所有数据集上平均性能提升最高达+6.69%。
基于强化学习的大语言模型推理技术近期进展依赖于带标注数据集的可验证奖励机制,这可能会限制模型超越人类水平的能力。尽管自我博弈提供了一种前景广阔的替代方案,但现有方法要么依赖外部验证器,要么无法实现开放式学习。我们提出开放式自我提升推理器(OpenSIR),该框架通过交替扮演教师与学生角色,使大语言模型在无外部监督条件下学习生成并解决新型问题。为生成新颖问题,OpenSIR同步优化难度与多样性:既奖励能带来适度挑战的问题,又鼓励探索不同概念,从而实现开放式数学发现。从单个简单种子问题出发,OpenSIR显著提升了指令模型的性能:Llama-3.2-3B-Instruct在GSM8K上的准确率从73.9提升至78.3,在大学数学题集上从28.8提升至34.4;Gemma-2-2B-Instruct在GSM8K上从38.5跃升至58.7。分析表明,OpenSIR通过协同进化的师生角色实现开放式学习——自适应校准难度并驱动多样化探索,从而自主完成从基础到高等数学的能力进阶。
当前视频检索的主流范式存在结构性偏差,窄化基准催生了相应局限的数据与单任务训练模式。由于缺乏能够定义并要求多维度泛化能力的诊断性评估,通用性能因此受到抑制。为打破这一循环,我们提出评估、数据与建模协同设计的框架。首先建立通用视频检索基准(UVRB),该基准集包含16个数据集,不仅能衡量性能,更能诊断跨任务与跨领域的关键能力缺口。其次,基于UVRB的诊断结果,我们设计可扩展的合成流程,生成155万高质量样本对以填充通用性所需的语义空间。最后提出模态金字塔训练课程,通过显式利用多元数据间的潜在关联,训练出通用视频嵌入模型(GVE)。大量实验表明GVE在UVRB上实现了零样本泛化的最优性能。特别值得注意的是,分析揭示流行基准对通用能力的预测性较差,且部分相关检索是主导却长期被忽视的场景。总体而言,我们的协同设计框架为突破现有局限、迈向真正通用的视频检索提供了可行路径。
视觉推理的前沿正转向如OpenAI o3这类模型,它们能够智能创建并操作工具来转化图像以解决问题,这种在思维链中"以图思考"的能力尚未被现有基准充分衡量。即便当前最常用的视觉搜索基准,也仅测试定位裁剪等基础操作,难以评估更复杂、动态且依赖工具的推理能力。我们推出TIR-Bench这一综合性基准,通过涵盖13类多样化任务来评估具身化的以图思考能力,每个任务都需要在思维链中运用创新工具进行图像处理与编辑。我们对22个多模态大语言模型(从领先开源/商业模型到明确增强工具使用能力的模型)的评估表明:TIR-Bench具有普适挑战性,优异表现需真实以图思考能力支撑。最后我们通过对比实验探索了直接微调与具身微调的效果差异。
视觉语言模型在广泛的任务和场景中展现出前所未有的性能与泛化能力。将这些基础模型集成到机器人导航系统中,为构建通用机器人开辟了新路径。然而,当前对这些模型导航能力的评估仍受限于昂贵的真实世界试验、过度简化的仿真环境以及有限的基准测试。我们推出NaviTrace——一个高质量的视觉问答基准测试集:模型接收指令与具身类型(人类、腿式机器人、轮式机器人、自行车)后,需在图像空间输出二维导航轨迹。基于1000个场景和3000余条专家轨迹,我们采用新提出的语义感知轨迹评分系统性地评估了八种前沿视觉语言模型。该指标融合了动态时间规整距离、目标终点误差以及基于像素级语义的具身条件惩罚机制,并与人类偏好保持相关性。评估结果表明,由于空间定位和目标识别能力不足,现有模型与人类表现存在系统性差距。NaviTrace为真实世界机器人导航建立了可扩展、可复现的基准测试体系。基准数据集与排行榜详见https://leggedrobotics.github.io/navitrace_webpage/。
理解画谜(Rebus Puzzles)需要综合运用图像识别、认知技能、常识推理、多步推理、基于图像的文字游戏等多种能力,即使对当前最先进的视觉语言模型而言也是极具挑战性的任务。本文推出包含1,333个英文画谜的left|,circlearrowright,text{BUS},right|大型多样化基准数据集,这些画谜涵盖食品、成语、体育、金融、娱乐等18个类别,具有不同的艺术风格和难度等级。我们同时提出RebusDescProgICE——一种模型无关的框架,通过结合非结构化描述与基于代码的结构化推理,辅以更优质的基于推理的上下文示例选择,使视觉语言模型在left|,circlearrowright,text{BUS},right|数据集上的性能较思维链推理提升2.1-4.1%(闭源模型)和20-30%(开源模型)。
我们推出Trove——一款易于使用的开源检索工具包,在保持灵活性与速度的同时简化研究实验。该工具首次引入高效数据管理功能,仅需几行代码即可动态加载并处理(筛选、选择、转换与合并)检索数据集。这使得用户能够灵活尝试不同数据集配置,无需计算和存储大型数据集的多个副本。Trove具备高度可定制性:除内置多种选项外,还允许用户自由修改现有组件或完全替换为自定义对象。同时提供用于评估和难负例挖掘的低代码统一流程,支持无需代码修改的多节点执行。Trove的数据管理功能将内存消耗降低至原来的2.6分之一。此外,其易用的推理流程不会产生额外开销,且推理时间随可用节点数量线性减少。最重要的是,我们展示了Trove如何简化检索实验并支持任意定制,从而推动探索性研究发展。
人类读取测量仪器读数轻而易举,且所需领域专业知识相对较少,但我们在初步评估中发现,这对当前视觉语言模型(VLM)仍具有惊人挑战性。本研究推出MeasureBench——一个涵盖真实场景与合成图像中各类测量仪器的视觉读数评测基准,并配套可扩展的数据合成流程。该流程能程序化生成具有可控视觉特征的指定类型仪表,实现指针、刻度、字体、光照及干扰物等关键细节的大规模参数化调整。对主流专有及开源VLM的评测表明,即使最先进的尖端模型在通用测量读数任务中仍表现不佳。一个典型的失效模式是指示器定位:模型能识别数字或标签,却误判指针或对齐标记的关键位置,导致尽管文本推理合理但数值误差巨大。我们通过合成数据进行了强化学习初步实验,发现在合成数据子集上效果显著,但对真实图像的泛化能力有限。本分析揭示了当前VLM在细粒度空间定位方面的根本局限。我们希望该资源能推动视觉基础计算能力与VLM精确空间感知的研究进展,弥合数字识别与世界测量之间的鸿沟。
多模态大语言模型(MLLMs)的最新进展显著提升了二维视觉理解能力,这促使研究者探索其在复杂三维推理任务中的应用前景。然而,这些模型能否有效捕捉现实场景中稳健性能所需的精细空间信息(尤其是跨视角一致性这一三维推理的关键要素)仍不明确。针对该问题,我们提出视角学习任务,旨在评估并增强MLLMs的空间推理能力。我们构建了包含10万组以物体为中心的多视角图像及对应问答对的Viewpoint-100K数据集,并采用两阶段微调策略:首先通过监督微调向基线MLLM注入基础空间知识,使其在多项任务中取得显著提升;随后基于群体相对策略优化算法对更广泛问题进行强化学习以增强泛化能力。此外,我们提出混合冷启动初始化方法,可同步学习视角表征并保持连贯推理思维。实验结果表明,该方法显著激活了MLLM的空间推理能力,在领域内和跨领域推理任务中均表现出性能提升。本研究凸显了培养MLLMs基础空间技能的价值,将为机器人技术、自主系统及三维场景理解领域的未来发展提供支撑。
数据选择是提升大语言模型推理能力的可验证奖励强化学习(RLVR)中的关键环节。当前数据选择方法主要基于启发式规则,缺乏理论保证与泛化能力。本研究提出一种基于影响函数的理论驱动方法,通过量化每个数据点对学习目标的贡献度进行数据筛选。为克服在线影响估计所需的策略 rollout 带来的巨大计算开销,我们引入离线策略影响估计方法,利用预收集的离线轨迹高效近似数据影响力。针对大语言模型高维梯度带来的挑战,采用稀疏随机投影技术降低维度以提升存储与计算效率。基于上述技术,我们开发了具备离线策略影响引导的课程强化学习框架(CROPI),该多阶段RL框架能迭代筛选对当前策略最具影响力的数据。在70亿参数规模的模型实验表明,CROPI可显著加速训练过程:在15亿参数模型上,仅使用每阶段10%的数据量即可实现2.66倍的步级加速效果。研究结果验证了基于影响函数的数据选择方法在高效RLVR领域的巨大潜力。
确立正确的北极星指标对于提升基础模型的数学推理能力至关重要,尤其是当前评估体系要么过于简单,要么仅关注简短答案的正确性。为解决这些问题,我们推出IMO-Bench——一套经顶尖专家团队审核、专门针对国际数学奥林匹克(IMO)级别的高阶推理基准。该套件包含:IMO-AnswerBench率先对模型进行400道可验证简短答案的奥数题测试;IMO-ProofBench则进阶评估证明撰写能力,涵盖基础与高阶IMO题型及详细评分标准以实现自动评分。这些基准在我们实现IMO 2025金奖的历史性突破中发挥了关键作用(Luong与Lockhart,2025)。我们的模型在IMO-AnswerBench上达到80.0%得分,在高级IMO-ProofBench上获得65.7%得分,分别以6.9%和42.4%的显著优势超越最佳非Gemini模型。我们还证实基于Gemini推理构建的自动评分器与人工评估高度吻合,并创建包含1000条人工证明评分的IMO-GradingBench,以推动长答案自动评估的发展。我们期待IMO-Bench能助力学界推进稳健的数学推理研究,相关资源已发布于https://imobench.github.io/。
视觉-语言-动作模型旨在理解自然语言指令与视觉观察信息,并作为具身智能体执行相应动作。近期研究将未来图像预测纳入理解-行动循环,形成了能联合理解、生成与行动的统一化VLA模型——既可解读文本与图像,又能生成未来图像与动作。然而现有模型要么依赖外部专家实现模态统一,要么将图像生成与动作预测视为独立过程,限制了任务间直接协同的效益。我们的核心思想是通过同步去噪过程联合优化生成与动作,在持续充分的视觉引导下,利用迭代优化使动作从初始化状态逐步演进。基于此理念,我们提出统一扩散VLA模型及联合离散去噪扩散过程(JD3P),该扩散过程将多模态整合至单一去噪轨迹,作为实现理解、生成与行动本质协同的关键机制。我们的模型与理论建立在全模态统一标记空间和混合注意力机制之上,进一步提出两阶段训练流程及多项推理优化技术以提升性能与效率。本方法在CALVIN、LIBERO和SimplerEnv等基准测试中达到最优性能,推理速度比自回归方法提升4倍,并通过深度分析与现实场景验证了其有效性。项目页面详见https://irpn-eai.github.io/UD-VLA.github.io/。
视频生成基础模型作为模拟物理世界的潜在世界模型,正展现出卓越能力。然而,这类模型在手术等高风险领域的应用仍存在关键空白——这些领域需要的是深度的专业因果知识,而非通用物理规则。为系统应对这一挑战,我们提出首个专家构建的手术视频生成模型评估基准SurgVeo,以及专用于评估从基础表象到复杂手术策略的四层新框架"手术合理性金字塔"。基于SurgVeo基准,我们让先进Veo-3模型对腹腔镜与神经外科手术片段进行零样本预测任务,并由四位认证外科医师团队依据SPP框架评估生成视频。结果揭示出显著的"合理性鸿沟":Veo-3在视觉感知合理性层面表现卓越,但在SPP更高层级(包括器械操作合理性、环境反馈合理性与手术意图合理性)存在关键缺陷。本研究首次量化证明了外科AI中视觉逼真模拟与因果理解之间的巨大差距。通过SurgVeo和SPP框架的发现,我们为开发能驾驭专业现实医疗领域复杂性的未来模型奠定了关键基础与路线图。
多模态大语言模型(MLLMs)取得的显著成功推动了多模态嵌入技术的进步,然而现有模型本质上仍属于判别式模型,限制了其从推理驱动的生成范式中获益的能力。本研究开创性地探索生成式嵌入方法,将嵌入任务统一于生成范式之下。我们提出UME-R1——一种通用多模态嵌入框架,采用两阶段训练策略:通过冷启动监督微调使模型具备推理能力,可同时生成判别式与生成式嵌入;后续的强化学习则增强推理能力并进一步优化生成式嵌入质量。这项开创性工作揭示了四个关键发现:1)生成式嵌入通过利用MLLMs强大的生成推理能力,相较传统判别式嵌入实现显著性能提升;2)判别式与生成式嵌入具有互补性,二者结合的预言机性能远超单一模式;3)强化学习能有效增强生成式嵌入,建立可扩展的优化范式;4)推理阶段的重采样可提升下游任务覆盖率(pass@k),彰显生成式嵌入在推理时的可扩展潜力。在涵盖视频、图像及视觉文档的78个任务MMEB-V2基准测试中,UME-R1显著超越传统判别式嵌入模型,为更具可解释性、推理驱动的生成式多模态嵌入奠定基础。相关代码、模型及数据集将公开于https://github.com/XMUDeepLIT/UME-R1。
大型语言模型(LLM)在自然语言推理方面展现出强大能力,但其在网络威胁情报(CTI)领域的应用仍存在局限。CTI分析涉及将海量非结构化报告提炼为可操作知识,这一过程中LLM可显著减轻分析人员的工作负担。CTIBench曾推出用于评估LLM在多类CTI任务表现的综合性基准。本研究通过开发AthenaBench对CTIBench进行扩展,该增强型基准包含改进的数据集构建流程、去重机制、优化评估指标以及聚焦风险缓解策略的新任务。我们评估了12个LLM,包括GPT-5和Gemini-2.5 Pro等尖端专有模型,以及来自LLaMA和Qwen系列的七个开源模型。尽管专有LLM整体表现更优,但在威胁行为者归因和风险缓解等推理密集型任务中仍不尽如人意,开源模型的差距则更为明显。这些发现揭示了当前LLM推理能力的根本局限,凸显了需要专门针对CTI工作流与自动化需求定制化开发模型的必要性。
图形用户界面(GUI)定位是计算机使用代理的核心功能,其将自然语言指令映射至可操作的屏幕区域。现有基于多模态大语言模型(MLLM)的方法通常将其视为基于文本的坐标生成任务,但直接从视觉输入生成精确坐标仍存在挑战且计算成本高昂。实现GUI定位的直观方法是先选取与指令相关的视觉图像块,再在这些图像块内确定精确点击位置。基于通用MLLM的注意力机制中天然蕴含基础定位能力的发现,我们提出GUI-AIMA——一种基于注意力且无需坐标监督的微调框架,用于实现高效GUI定位。该框架通过多头聚合简化后的查询-视觉注意力矩阵,自适应计算针对多样化用户指令的图像块级定位信号,从而将MLLM固有的多模态注意力与定位信号对齐。此外,其无需坐标的特性可轻松集成即插即用的局部放大模块。仅使用8.5万张屏幕截图训练的GUI-AIMA-3B模型展现出卓越的数据效率,验证了轻量训练即可激发MLLM原生定位能力。该模型在3B参数规模中达到最先进性能,在ScreenSpot-Pro和OSWorld-G数据集上平均准确率分别达58.6%和62.2%。项目页面:https://github.com/sjz5202/GUI-AIMA
自然语言解释(NLE)通过结合外部语境知识(CK)与存储在模型权重中的参数知识(PK),描述大语言模型(LLM)的决策机制。理解二者的相互作用是评估NLE基础的关键,但目前研究仍不充分。已有研究大多仅关注单步生成(通常是最终答案),并将PK与CK的交互建模为秩-1子空间中的二元选择,忽略了互补性、支持性等更丰富的交互形式。我们提出一种新颖的秩-2投影子空间,能更精准解构PK与CK的贡献度,并首次实现长序列NLE中知识交互的多步分析。在四个问答数据集和三个开源指令微调LLM上的实验表明:秩-1子空间难以有效表征多样化的知识交互,而我们的秩-2模型能精准捕捉这些特征。多步分析揭示:幻觉性NLE明显偏向PK方向,语境忠实型NLE平衡PK与CK,而针对NLE的思维链提示会通过降低PK依赖使生成结果向CK偏移。本研究首次通过更丰富的秩-2解构框架,为系统研究LLM多步知识交互提供了方法论基础。代码与数据详见:https://github.com/copenlu/pk-ck-knowledge-disentanglement。
在检索领域,异质检索器候选结果的融合一直是个长期挑战,尤其对于视频这类复杂的多模态数据。传统融合技术虽无需训练,但仅依赖排序或分数信号,忽略了候选结果的表征信息。本研究提出上下文投票(ViC)框架,这一通用化、免训练的方案将列表式重排序与融合重新定义为视觉语言模型的零样本推理任务。其核心洞见在于将内容证据与检索器元数据直接序列化嵌入VLM提示中,使模型能自适应权衡检索器共识与视觉-语言内容的关系。我们通过跨模态视频检索这一挑战性领域验证该框架的普适性,并引入S-Grid紧凑序列化图谱——将每个视频表示为可搭配字幕的图像网格,实现对视频候选集的列表式推理。ViC作为单列表重排序器时,能显著提升个体检索器的精确度;作为集成融合器时,其表现持续优于CombSUM等强基线。在ActivityNet、VATEX等视频检索基准测试中,该框架创造了零样本检索性能的新标杆,展现出处理复杂视觉、时序信号与文本的卓越能力。零样本设定下,ViC在MSR-VTT上达到87.1%(文本到视频)/89.0%(视频到文本)的Recall@1值,在VATEX上实现99.6%(视频到文本)的Recall@1值,较此前最优基线提升高达+40 Recall@1。我们提出ViC作为一种简洁、可复现的高效方案,能将现代VLM转化为强大的零样本重排序与融合工具。代码与资源已开源:https://github.com/mohammad2012191/ViC