每日精选AI研究论文及翻译
多智能体系统(MAS)将大语言模型(LLM)从独立的单模型推理扩展至协同的系统级智能。现有LLM智能体依赖基于文本的中介进行推理与通信,而我们通过使模型能在连续潜空间内直接协作更进一步。本文提出LatentMAS——一种支持LLM智能体间纯潜空间协作的端到端免训练框架。在LatentMAS中,每个智能体首先通过末层隐藏嵌入进行自回归潜思维生成,共享的潜工作记忆则保存并传递各智能体的内部表征,确保无损信息交换。理论分析表明,相较于传统基于文本的MAS,LatentMAS能以显著更低的复杂度实现更高表达力与无损信息保存。此外,在涵盖数学科学推理、常识理解与代码生成的9个综合基准测试中,LatentMAS持续优于强单模型及文本MAS基线,准确率最高提升14.6%,输出令牌使用量减少70.8%-83.7%,端到端推理速度提升4-4.3倍。这些结果证明,我们的新潜协作框架在提升系统级推理质量的同时,无需额外训练即可实现显著效率增益。代码与数据已开源:https://github.com/Gen-Verse/LatentMAS。
当前,多模态大语言模型(MLLMs)已成为研究焦点,其规模与能力迅速提升,但其智能水平、局限性及风险仍未得到充分认知。针对这一问题,尤其在尚无多模态基准测试的俄语语境下,我们推出了Mera Multi——一个面向俄语架构的开放式多模态评估框架。该基准采用指令驱动模式,涵盖默认的文本、图像、音频和视频模态,包含18项全新构建的评估任务,既适用于通用模型,也适配特定模态架构(图像到文本、视频到文本及音频到文本)。我们的贡献包括:(i)建立多模态能力的统一分类体系;(ii)充分考虑俄罗斯文化语言特性,从头构建18个数据集并统一提示词与评估指标;(iii)提供闭源与开源模型的基线结果;(iv)制定防止基准泄露的方法论,包括私有数据集的水印技术与使用许可。虽然当前聚焦俄语,但本基准提出的方法论可复用于构建类型学多样语言(尤其是斯拉夫语族)的多模态评估体系。
世界模型是智能体AI、具身AI及游戏等领域的核心模拟器,能够生成具备物理真实性、可交互的高质量长视频。更重要的是,扩展这些模型有望激发视觉感知、理解与推理的涌现能力,为突破当前以LLM为中心的视觉基础模型开辟新范式。实现这一突破的关键在于半自回归(块扩散)解码范式,该范式通过分块应用扩散生成视频令牌,同时以先前块为条件,融合了扩散方法与自回归方法的优势,从而产生更连贯稳定的视频序列。尤为关键的是,该技术通过重新引入LLM风格的KV缓存管理机制,克服了标准视频扩散模型的局限性,实现了高效、可变长度的高质量生成。 因此,Inferix被专门设计为新一代推理引擎,通过优化的半自回归解码流程实现沉浸式世界合成。这种对世界模拟的专注定位,使其明显区别于面向高并发场景的系统(如vLLM或SGLang)以及经典视频扩散模型(如xDiTs)。Inferix进一步通过交互式视频流与性能分析功能增强其实用性,支持实时交互与逼真模拟,从而精准刻画世界动态。此外,通过无缝集成LV-Bench——专为分钟级长视频生成场景设计的细粒度评估基准,该系统支持高效性能评测。我们期待社区携手推进Inferix发展,共同推动世界模型的探索进程。
同步音视频内容的合成是生成式人工智能的核心挑战,开源模型在实现鲁棒的音视频对齐方面面临诸多困难。我们的分析表明,该问题源于联合扩散过程的三个根本性挑战:(1)对应关系漂移——并发演化的噪声潜在表征阻碍了对齐关系的稳定学习;(2)低效的全局注意力机制难以捕捉细粒度时序线索;(3)传统无分类器引导(CFG)的模态内偏差,虽能增强条件性却无法促进跨模态同步。为突破这些限制,我们提出创新框架Harmony,通过机制化设计强制实现音视频同步。我们首先提出跨任务协同训练范式,通过融合音频驱动视频生成与视频驱动音频生成任务中的强监督信号来抑制漂移现象;继而设计全局-局部解耦交互模块,实现高效精准的时序-风格对齐;最后提出同步增强型CFG(SyncCFG),在推理阶段显式分离并放大对齐信号。大量实验表明,Harmony开创了全新标杆,在生成保真度及关键的细粒度音视频同步效果上均显著超越现有方法。
我们推出Nemotron-Parse-1.1,这是一款轻量级文档解析与OCR模型,其在前代Nemoretriever-Parse-1.0的基础上实现了能力升级。该模型在通用OCR、Markdown格式解析、结构化表格解析以及图片/图表/示意图的文本提取方面均表现出增强性能,同时支持对视觉密集文档进行更长输出序列的处理。与前代模型一致,它能够提取文本段的边界框及对应语义类别。Nemotron-Parse-1.1采用编码器-解码器架构,参数量达8.85亿(其中语言解码器为紧凑型2.56亿参数),在公开基准测试中达到业界领先的准确率,成为强有力的轻量级OCR解决方案。我们已在Huggingface平台公开发布模型权重、优化的NIM容器以及作为Nemotron-VLM-v2数据集组成部分的部分训练数据。此外,我们还发布了Nemotron-Parse-1.1-TC版本,该版本通过缩减视觉标记长度实现20%的速度提升,且质量损失微乎其微。
统一多模态模型(UMMs)通过单一架构在理解与生成任务中均展现出卓越性能。然而,此类模型仍存在根本性矛盾:理解任务偏好紧凑的嵌入表示,而生成任务则需要重构丰富的表征。这种结构性权衡导致决策边界失准、跨模态连贯性下降,并在分布偏移和对抗性攻击下表现出更高的脆弱性。本文提出UniGame——一种直接针对上述不一致性的自对抗后训练框架。通过在共享令牌接口施加轻量化扰动器,该框架使生成分支能够主动探寻并挑战脆弱的理解环节,让模型自身成为其对抗者。实验表明,UniGame显著提升模型一致性(+4.6%),同时在理解能力(+3.6%)、生成质量(+0.02)以及分布外鲁棒性(NaturalBench和AdVQA数据集分别提升+4.8%和+6.2%)方面实现显著进步。该框架与架构无关,仅引入不足1%的额外参数,且可与现有后训练方法互补。这些成果表明,对抗性自我博弈是提升未来多模态基础模型连贯性、稳定性与统一能力的普适性有效原则。项目代码已开源:https://github.com/AIFrontierLab/UniGame
我们研究了大语言模型(LLM)在不同难度任务间的泛化能力,这是影响数据筛选与评估效果的核心问题。现有研究对于"使用简单数据还是困难数据训练能获得更好效果"以及"效果提升体现在简单还是困难测试数据上"等问题尚未达成共识。为解决这一争议,我们系统评估了LLM在模型、数据集及细粒度难度分组间的泛化表现。通过运用数千种不同LLM的输出结果与教育测试领域成熟的难度度量指标——项目反应理论(IRT),我们对六个数据集中的样本进行了难度分级。与先前研究不同,我们的难度评级完全基于多种LLM的能力表现,排除了人类对难度的主观判断。通过更客观、大规模且细粒度的分析,我们发现跨难度泛化能力往往有限:仅使用简单或困难数据训练无法在全部难度范围内实现一致提升。这些结果表明,在LLM的训练和评估数据中保持难度多样性至关重要,任何在难度维度上走捷径的做法都存在风险。
"图像思维"已成为推进视觉推理的有效范式,它通过将视觉证据注入中间推理步骤,超越了纯文本的思维链模式。然而,现有方法在类人抽象视觉思维方面存在不足,其灵活性从根本上受限于外部工具。本研究提出Monet训练框架,使多模态大语言模型能够通过生成作为中间视觉思维的连续嵌入,直接在潜在视觉空间中进行推理。我们识别出训练MLLMs进行潜在视觉推理的两大核心挑战:潜在视觉对齐的高计算成本与对潜在嵌入监督不足,并通过三阶段基于蒸馏的监督微调流程予以解决。我们进一步揭示了GRPO在潜在推理应用中的局限:它主要增强文本推理而非潜在推理。为此提出VLPO(视觉潜在策略优化),这种强化学习方法将潜在嵌入显式纳入策略梯度更新。为支持SFT,我们构建了Monet-SFT-125K数据集——包含12.5万条真实场景、图表、OCR和几何推理链的高质量图文交错CoT数据集。我们的Monet-7B模型在真实场景感知与推理基准上实现持续提升,并在挑战性抽象视觉推理任务中展现出强大的分布外泛化能力。我们还实证分析了各训练组件的作用,并讨论了早期不成功的尝试,为视觉潜在推理的未来发展提供洞见。模型、数据及代码已开源:https://github.com/NOVAglow646/Monet。
我们提出终端速度匹配(TVM),作为流匹配的泛化形式,能够实现高保真度的单步与少步生成建模。TVM模拟任意两个扩散时间步之间的转移过程,并在其终端时刻而非初始时刻对其行为进行正则化。我们证明当模型满足Lipschitz连续性时,TVM为数据分布与模型分布之间的2-Wasserstein距离提供了上界。然而由于扩散变换器不具备该性质,我们引入了最小限度的架构调整以实现稳定的单阶段训练。为使TVM在实践中高效运行,我们开发了支持雅可比-向量积反向传播的融合注意力核,该设计能随变换器架构良好扩展。在ImageNet-256×256数据集上,TVM以单次函数评估(NFE)取得3.29 FID,4次NFE取得1.99 FID;在ImageNet-512×512数据集上同样实现单次NFE 4.32 FID和4次NFE 2.94 FID的性能,代表了从零开始训练的单步/少步模型的最高水平。
视觉语言模型在空间智能方面仍缺乏鲁棒性,其在空间理解与推理任务上的表现欠佳。我们认为这一差距源于缺乏能够从二维图像重建三维空间的视觉几何学习过程。本文提出G^2VLM——一种基于几何建模的视觉语言模型,该模型融合了空间智能的两个核心维度:三维空间重建与空间语义理解。G^2VLM原生利用学习得到的三维视觉几何特征,既能直接预测三维属性,又可通过上下文学习与交织推理增强空间推理任务。我们的统一架构在空间理解方面具有高度扩展性:既能利用海量多视角图像和视频数据进行训练,又能受益于通常仅能通过难以获取的标注数据得到的三维视觉先验。实验结果表明,G^2VLM在双重任务中均表现优异,其三维重建效果可与前沿的前馈式三维重建模型相媲美,在空间理解与推理任务中则取得更优或具有竞争力的结果。通过将强语义的视觉语言模型与底层三维视觉任务相融合,我们希望G^2VLM能成为该领域的强基准,并为三维场景编辑等未来应用开启更多可能性。
块因果视频生成面临严峻的速度-质量权衡:1.3B小模型仅能实现16 FPS,而14B大模型更是低至4.5 FPS,迫使用户在响应速度与生成质量间做出取舍。块级联技术通过无需训练的并行化方案显著缓解了这一矛盾。我们的核心发现是:后续视频块无需等待前驱块完全去噪即可开始生成。通过基于部分去噪的上下文信息启动块生成,我们将串行流程转换为并行级联,使多个块可同时进行去噪处理。借助5张GPU实现时序并行,所有模型规模均实现约2倍加速:1.3B模型从16 FPS提升至30 FPS,14B模型从4.5 FPS提升至12.5 FPS。除推理速度提升外,块级联技术还消除了交互式生成中上下文切换时的KV重缓存开销(约200毫秒)。针对多种块因果流程的广泛评估表明,在从块因果推理切换至块级联推理时,生成质量未见显著下降。项目页面:https://hmrishavbandy.github.io/block_cascading_page/
将自然语言指令转化为四足机器人的连续控制始终是视觉语言行动领域的核心挑战。现有方法难以弥合高层语义推理与底层驱动之间的鸿沟,导致现实场景中存在 grounding 不稳定和泛化能力弱的问题。为此,我们提出MobileVLA-R1——一个支持四足机器人显式推理与连续控制的统一视觉语言行动框架。我们构建了MobileVLA-CoT数据集,包含具身轨迹的多粒度思维链,为对齐任务提供结构化推理监督。基于此,我们引入结合监督式CoT对齐与GRPO强化学习的两阶段训练范式,显著提升推理一致性、控制稳定性和长周期任务执行能力。在VLN和VLA任务上的大量实验表明,该方法较基线模型性能提升约5%。四足机器人的实体部署验证了其在复杂环境中的鲁棒性。代码:https://github.com/AIGeeksGroup/MobileVLA-R1 项目网站:https://aigeeksgroup.github.io/MobileVLA-R1
时间步蒸馏是提升扩散模型生成效率的有效方法。一致性模型(CM)作为基于轨迹的框架,凭借其坚实的理论基础和高质量少步生成能力展现出巨大潜力。然而,当前连续时间一致性蒸馏方法仍严重依赖训练数据和计算资源,这阻碍了其在资源受限场景下的部署,并限制了向多领域扩展的适用性。针对该问题,我们提出轨迹反向一致性模型(TBCM),通过直接从教师模型生成轨迹中提取潜在表征,消除了对外部训练数据的依赖。与需要VAE编码和大规模数据集的传统方法不同,我们的自包含蒸馏范式显著提升了效率与简洁性。此外,轨迹提取的样本天然弥合了训练与推理间的分布差异,从而实现更有效的知识迁移。实验表明,TBCM在单步生成条件下于MJHQ-30k数据集上达到6.52 FID和28.08 CLIP分数,同时较Sana-Sprint减少约40%训练时间并节省大量GPU显存,在保持质量的同时展现出卓越效率。我们进一步揭示了连续时间一致性蒸馏中的扩散-生成空间差异,并分析采样策略如何影响蒸馏性能,为未来蒸馏研究提供洞见。GitHub链接:https://github.com/hustvl/TBCM。
视觉-语言-动作(VLA)策略在语言、感知与机器人控制的协同方面表现出色。然而,大多数VLA仅通过模仿学习进行训练,这会导致对演示数据的过拟合,并在分布偏移时表现脆弱。强化学习(RL)通过直接优化任务奖励来解决这一错位问题,但真实机器人交互成本高昂,且传统仿真器难以构建和迁移。我们通过学得的世界模型和专为基于流的动作头设计的RL流程,同步解决了VLA后训练中的数据效率与优化稳定性问题。具体而言,我们提出Prophet——一种基于大规模异构机器人数据预训练的统一动作到视频机器人驱动模型,可学习可重用的动作-结果动态关系。该模型能够快速适应新的机器人、物体及环境,形成可直接用于推演的仿真器。在此基础上,我们通过适配VLA动作的Flow-action-GRPO(FA-GRPO)算法,以及对流动作头梯度进行逐步重标定的FlowScale技术,强化动作策略。Prophet、FA-GRPO与FlowScale共同构成ProphRL框架,为VLA后训练提供了一条实用且兼顾数据与计算效率的路径。实验表明,该框架在公开基准上使不同VLA变体的成功率提升5-17%,在真实机器人任务中提升24-30%。
视觉基础模型(VFMs)提取的空间下采样表征为像素级任务带来挑战。现有上采样方法面临根本性权衡:经典滤波器速度快、适用性广但依赖固定形式,而现代上采样器通过可学习的VFM专用形式实现更高精度,但需为每个VFM重新训练。我们提出邻域注意力滤波(NAF),通过跨尺度邻域注意力和旋转位置编码(RoPE)学习自适应空间-内容权重,仅以高分辨率输入图像为引导,成功弥合了这一差距。NAF具备零样本特性:无需重新训练即可上采样任意VFM的特征,成为首个超越VFM专用上采样器、在多个下游任务中实现最先进性能的VFM无关架构。该方法保持高效性,可扩展至2K特征图,并以18 FPS速度重建中间分辨率图谱。除特征上采样外,NAF在图像复原任务中同样表现优异,彰显其多用途潜力。代码与检查点已开源:https://github.com/valeoai/NAF。
我们推出Sphinx——一个面向视觉感知与推理核心认知基元的合成环境。该系统通过程序化生成包含图案、瓦片、图表、图标及几何基元的谜题,每个谜题均配有可验证的参考答案,既能实现精准评估,又能支持大规模数据集构建。该基准涵盖对称性检测、几何变换、空间推理、图表解读和序列预测等25类任务。对近期大尺度视觉语言模型的评估表明,即便是最先进的GPT-5模型准确率也仅为51.1%,远低于人类表现。最后我们验证了基于可验证奖励的强化学习能显著提升模型在这些任务上的准确率,并在外部视觉推理基准测试中取得进步,凸显其推动多模态推理发展的潜力。
基于人类反馈的强化学习(RLHF)被广泛用于对齐大语言模型,但实践者始终面临一个难题:提升安全性往往会降低公平性,扩展到多样化群体时计算会变得难以处理,而增强系统鲁棒性又常常放大主流群体偏见。我们将这种张力形式化为对齐三元悖论:任何RLHF系统都无法同时实现(i)跨多元人类价值观的ε-代表性,(ii)样本与计算复杂度的多项式可处理性,以及(iii)对抗性扰动与分布偏移的δ-鲁棒性。通过融合统计学习理论与鲁棒优化的复杂性理论分析,我们证明要实现全球规模人群的代表性(ε≤0.01)和鲁棒性(δ≤0.001)需要Ω(2^{d_context})量级的运算量,这在上下文维度上呈超多项式增长。研究发现当前RLHF实现通过牺牲代表性来解决这一悖论:它们仅从同质化标注群体收集10^3-10^4个样本,而真实全球代表性需要10^7-10^8个样本。我们的框架为已记录的RLHF缺陷(包括偏好坍缩、谄媚行为和系统性偏见放大)提供了统一解释。最后提出了通过策略性放宽对齐要求来应对这些根本性权衡的具体方向。
城市级三维生成对于具身智能与世界模型的发展具有重要意义。然而现有方法在三维世界生成的质量、保真度与可扩展性方面面临重大挑战。为此,我们提出RAISECity——一种能够创建精细化城市级三维世界的现实对齐智能合成引擎。该框架通过智能体架构调用多模态基础工具获取现实世界知识,维持鲁棒的中间表征,并构建复杂三维场景。这种具备动态数据处理、迭代式自反思优化及多模态工具调用能力的智能体设计,有效减少了误差累积并提升整体性能。大量定量实验与定性分析表明,RAISECity在现实对齐度、几何精度、纹理保真度与美学水准方面均表现优异,在整体感知质量评估中以超过90%的胜率超越现有基线。兼具三维质量、现实对齐性、可扩展性以及与计算机图形管线的无缝兼容性,使RAISECity成为沉浸式媒体、具身智能和世界模型等领域极具前景的基础平台。
精确预测剩余使用寿命(RUL)的关键在于健康指标(HI)的质量,然而现有方法往往难以解析多传感器系统中的复杂退化机制,也无法量化HI可靠性的不确定性。本文提出了一种创新的健康指标构建框架,具有三大核心贡献:首先,我们首次将投影路径重建(RaPP)方法改造为RUL预测的健康指标,证明其性能优于传统重构误差指标;其次,通过蒙特卡洛丢弃法和概率潜空间实现认知与随机不确定性量化,显著增强了RaPP衍生HI的RUL预测鲁棒性;第三也是最重要的,我们提出"指标组"范式——通过隔离传感器子集来建模系统特定退化机制,由此诞生了可解释的机制特异性诊断新方法I-GLIDE。在航空航天与制造系统数据上的实验表明,相较于最先进的HI方法,我们的方案在预测精度与泛化能力上均实现显著提升,同时为系统失效路径提供了可操作的洞察。这项研究填补了异常检测与预测性维护之间的空白,为复杂系统中的不确定性感知退化建模提供了理论框架。
尽管3D高斯溅射(3DGS)在多数配置中表现卓越,但在少样本场景下由于对稀疏观测的过拟合,其在新视角上的泛化能力不足。我们从机器学习视角重新审视3DGS的优化过程,将新视角合成定义为对未见过视角的泛化问题——这一方向尚未被充分探索。我们提出频率自适应锐度正则化(FASR),通过重构3DGS的训练目标,引导3DGS收敛至更具泛化能力的解。虽然锐度感知最小化(SAM)同样通过降低损失景观的锐度来提升分类模型的泛化能力,但由于任务差异,直接将其应用于3DGS会存在次优问题。具体而言,过度正则化会阻碍高频细节的重建,而降低正则化强度又会导致对锐度的惩罚不足。为此,我们通过反映图像的局部频率来设定正则化权重和估计局部锐度时的邻域半径。该方法能有效避免新视角下的漂浮伪影,并重建SAM容易过度平滑的精细细节。在多种配置的数据集上,我们的方法持续提升了各类基线的性能。代码将在https://bbangsik13.github.io/FASR 发布。