每日精选AI研究论文及翻译
我们提出FlowRL:通过流平衡匹配完整的奖励分布,而非在大语言模型(LLM)强化学习(RL)中单纯最大化奖励。近期先进的推理模型采用奖励最大化方法(如PPO和GRPO),这些方法倾向于过度优化主导奖励信号,而忽视了虽不频繁但有效的推理路径,从而降低了多样性。相比之下,我们利用可学习的划分函数将标量奖励转化为归一化的目标分布,随后最小化策略与目标分布之间的反向KL散度。我们将这一理念实现为一种流平衡优化方法,旨在促进多样化的探索和可泛化的推理轨迹。我们在数学和代码推理任务上进行了实验:FlowRL在数学基准测试中相比GRPO平均提升10.0%,相比PPO提升5.1%,并在代码推理任务上持续表现更优。这些结果凸显了奖励分布匹配作为LLM强化学习中实现高效探索和多样化推理的关键一步。
视觉-语言模型(VLMs)已赋能计算机使用代理(CUAs)自主操作图形用户界面(GUI),展现出巨大潜力,但进展受限于缺乏大规模、开源的计算机使用数据及基础模型。本研究推出ScaleCUA,旨在推动开源CUAs的规模化发展。它提供了一个跨越6种操作系统和3个任务领域的大规模数据集,通过自动化代理与人类专家相结合的闭环流程构建而成。基于这一扩展数据训练的ScaleCUA,能够跨平台无缝操作。具体而言,它在基准测试中显著超越基线(WebArena-Lite-v2提升26.6分,ScreenSpot-Pro提升10.7分),并创下多项最新记录(MMBench-GUI L1-Hard达94.4%,OSWorld-G达60.6%,WebArena-Lite-v2达47.4%)。这些成果凸显了数据驱动规模化对于通用计算机使用代理的强大作用。我们将发布数据、模型及代码,以促进未来研究:https://github.com/OpenGVLab/ScaleCUA。
大型语言模型(LLMs)正日益应用于多样化的现实场景中,每个场景都遵循由用户或组织量身定制的行为与安全规范(spec)。这些规范被划分为安全规范和行为规范,因场景而异,并随着偏好和需求的变化而演进。我们将这一挑战形式化为规范对齐问题,重点关注LLMs从行为和安全角度遵循动态、场景特定规范的能力。为应对这一挑战,我们提出了Align3,一种轻量级方法,采用测试时深思(TTD)结合分层反思与修订,以推理规范边界。此外,我们推出了SpecBench,一个统一的基准测试,用于衡量规范对齐,涵盖5个场景、103项规范和1,500个提示。通过对15个推理模型和18个指令模型进行实验,包括Self-Refine、TPO和MoreThink等多种TTD方法,我们得出三个关键发现:(i) 测试时深思提升了规范对齐;(ii) Align3以最小开销推进了安全性与实用性之间的权衡前沿;(iii) SpecBench有效揭示了对齐差距。这些结果凸显了测试时深思作为推理现实世界规范边界有效策略的潜力。
我们推出了AToken,这是首个能够在图像、视频和3D资产上同时实现高保真重建与语义理解的统一视觉分词器。与现有仅专注于单一模态重建或理解的分词器不同,AToken将这些多样化的视觉输入编码到一个共享的4D潜在空间中,在一个框架内统一了任务与模态。具体而言,我们引入了一种纯Transformer架构,配备4D旋转位置嵌入,以处理任意分辨率和时长的视觉输入。为了确保训练的稳定性,我们提出了一种无对抗的训练目标,结合感知损失和Gram矩阵损失,实现了最先进的重建质量。通过采用渐进式训练课程,AToken逐步从单张图像、视频扩展到3D,并支持连续与离散的潜在标记。AToken在图像上实现了0.21的rFID和82.2%的ImageNet准确率,在视频上达到了3.01的rFVD和32.6%的MSRVTT检索率,在3D上则获得了28.19的PSNR和90.9%的分类准确率。在下游应用中,AToken不仅支持视觉生成任务(如使用连续与离散标记的图像生成、文本到视频生成、图像到3D合成),还支持理解任务(如多模态大语言模型),在所有基准测试中均展现出竞争力。这些成果为基于统一视觉分词的新一代多模态AI系统指明了方向。
大型语言模型(LLMs)正越来越多地通过可验证奖励的强化学习(RLVR)进行训练,然而实际部署需要模型能够在无标签或外部评判的情况下自我提升。现有的无标签方法,如置信度最小化、自一致性或多数票目标,虽能稳定学习,却逐渐缩小探索范围,导致熵崩溃:生成内容变短、多样性降低且脆弱。与先前主要针对手头无标签数据集即时调整模型的测试时强化学习(TTRL)不同,我们的目标更为广泛:在不牺牲模型固有探索能力和泛化能力的前提下,实现普遍改进,即进化。我们正式提出这一问题,并提出了面向进化与无标签的强化学习(EVOL-RL),这是一种在无标签环境下将稳定性与变化性相结合的简单规则。EVOL-RL以多数票答案作为稳定锚点(选择),同时引入新颖性奖励,偏爱那些在语义空间中推理路径与众不同的回答(变化)。通过GRPO实现,EVOL-RL还采用非对称裁剪保留强信号,并通过熵正则化维持搜索。这种“多数票选择+新颖性变化”的设计防止了崩溃,保持了更长且信息更丰富的思维链,并提升了pass@1和pass@n的表现。EVOL-RL持续超越仅依赖多数票的TTRL基线;例如,在无标签的AIME24上训练,将Qwen3-4B-Base在AIME25上的pass@1从TTRL的4.6%提升至16.4%,pass@16从18.5%提升至37.9%。EVOL-RL不仅防止了多样性崩溃,还解锁了跨领域(如GPQA)的更强泛化能力。此外,我们展示了EVOL-RL在RLVR设置下也能提升性能,凸显了其广泛适用性。
近期视频扩散模型凭借其丰富的潜在世界先验知识,在空间智能任务中展现出强大潜力。然而,这种潜力受限于其可控性和几何一致性的不足,导致其强大的先验知识与实际3D/4D任务应用之间存在差距。因此,现有方法往往依赖于重新训练或微调,这不仅可能损害预训练知识,还带来高昂的计算成本。为解决这一问题,我们提出了WorldForge,一个无需训练、在推理时运行的框架,由三个紧密耦合的模块组成。**步内递归优化**在推理过程中引入递归优化机制,通过在每个去噪步骤内反复优化网络预测,实现精确轨迹注入。**流控潜在融合**利用光流相似性,在潜在空间中将运动与外观解耦,并选择性地将轨迹指导注入与运动相关的通道。**双路径自校正指导**通过比较有指导和无指导的去噪路径,自适应地校正由噪声或未对齐的结构信号引起的轨迹漂移。这些组件共同作用,无需训练即可注入细粒度、与轨迹对齐的指导,实现精确的运动控制和逼真的内容生成。跨多个基准的大量实验验证了我们的方法在真实性、轨迹一致性和视觉保真度方面的优越性。本工作为可控视频合成引入了一种新颖的即插即用范式,为利用生成先验进行空间智能提供了新的视角。
搜索已成为基于大型语言模型(LLM)的智能体核心基础设施,并普遍被视为通向更通用智能的关键路径。金融领域尤为严苛:分析师们经常针对时效性强、领域特定的数据进行复杂多步的搜索,这使其成为评估搜索能力与知识驱动推理的理想场景。然而,现有公开金融数据集均未评估端到端智能体的数据搜索能力,主要原因在于构建真实复杂的任务需深厚的金融专业知识,且时效性数据难以评估。我们推出了FinSearchComp,首个完全开源的智能体基准测试,专注于真实、开放领域的金融搜索与推理。FinSearchComp包含三项任务——时效性数据获取、简单历史查询及复杂历史调查——紧密复现了现实世界金融分析师的工作流程。为确保难度与可靠性,我们邀请了70位专业金融专家进行标注,并实施了严格的多阶段质量保证流程。该基准测试涵盖全球及大中华区市场的635个问题,并对21个模型(产品)进行了评估。Grok 4(网页版)在全球子集上表现最佳,接近专家级准确度。而DouBao(网页版)则在大中华区子集上领先。实验分析表明,为智能体配备网页搜索与金融插件能显著提升其在FinSearchComp上的表现,且模型与工具的国家来源对性能有显著影响。通过贴近真实分析师任务并提供端到端评估,FinSearchComp为复杂的金融搜索与推理提供了一个专业且高难度的测试平台。
近期研究揭示了高质量视觉表征在图像生成中的重要性,同时指出了生成模型在图像理解方面的局限性。作为最初为自然语言设计的生成范式,自回归模型面临着相似的挑战。在本研究中,我们首次系统性地探讨了将下一标记预测范式应用于视觉领域的机制。我们识别出阻碍高级视觉语义学习的三个关键特性:局部与条件依赖性、步骤间语义不一致性以及空间不变性缺失。研究表明,通过在训练中引入自监督目标,这些问题能够得到有效解决,从而提出了一种新颖的训练框架——自回归模型的自引导训练(ST-AR)。无需依赖预训练的表征模型,ST-AR显著提升了自回归模型的图像理解能力,并带来了生成质量的提升。具体而言,在保持相同采样策略的情况下,ST-AR为LlamaGen-L带来了约42%的FID提升,为LlamaGen-XL带来了49%的FID提升。
本文介绍了RynnVLA-001,一种基于大规模人类示范视频生成预训练的视觉-语言-动作(VLA)模型。我们提出了一种新颖的两阶段预训练方法。第一阶段,自我中心视频生成预训练,在1200万条自我中心操作视频上训练图像到视频模型,以初始帧和语言指令为条件预测未来帧。第二阶段,人类中心轨迹感知建模,通过联合预测未来关键点轨迹进一步扩展,从而有效桥接视觉帧预测与动作预测。此外,为增强动作表示,我们提出了ActionVAE,一种变分自编码器,将动作序列压缩为紧凑的潜在嵌入,降低了VLA输出空间的复杂性。在相同下游机器人数据集上微调后,RynnVLA-001相较于现有最先进的基线模型展现出更优性能,证明了所提出的预训练策略为VLA模型提供了更有效的初始化。
当前基于指令的图像编辑(IBIE)方法在处理复杂编辑任务时面临挑战,这主要源于现有数据集的编辑类型和样本数量均较为有限。此外,传统数据集构建过程中常包含噪声图像-描述对,这些噪声可能引入偏见,限制模型在复杂编辑场景下的能力。为克服这些局限,我们推出了MultiEdit,一个包含超过107,000个高质量图像编辑样本的综合数据集。该数据集通过18种非风格迁移编辑类型和38种风格迁移操作,涵盖了6项具有挑战性的编辑任务,从精细的风格迁移到复杂语义操作,如人物参照编辑和图像内文本编辑,均有所涉及。我们采用了一种新颖的数据集构建流程,利用两个多模态大语言模型(MLLMs)分别生成视觉适应性编辑指令并制作高保真编辑图像。大量实验表明,使用我们的MultiEdit-Train集对基础开源模型进行微调,显著提升了模型在我们提出的MultiEdit-Test基准测试中处理复杂编辑任务的性能,同时有效保持了其在标准编辑基准上的能力。我们相信,MultiEdit为推进更广泛、更具挑战性的IBIE能力研究提供了宝贵资源。我们的数据集已发布于https://huggingface.co/datasets/inclusionAI/MultiEdit。
时空视频定位(STVG)旨在根据输入的文本查询定位视频中的时空管道。本文中,我们利用多模态大语言模型(MLLMs)探索STVG中的零样本解决方案。我们揭示了关于MLLMs的两个关键洞察:(1)MLLMs倾向于动态分配特殊标记,称为定位标记,用于定位文本查询;(2)MLLMs由于无法完全整合文本查询中的线索(如属性、动作)进行推理,常常导致定位效果不佳。基于这些洞察,我们提出了一个基于MLLM的零样本STVG框架,该框架包括新颖的分解时空高亮(DSTH)和时序增强组装(TAS)策略,以释放MLLMs的推理能力。DSTH策略首先将原始查询解耦为属性和动作子查询,以在空间和时间上询问目标的存在。然后,它使用一个新颖的logit引导重注意(LRA)模块,通过正则化每个子查询的标记预测来学习潜在变量作为空间和时序提示。这些提示分别突出属性和动作线索,引导模型关注可靠的空间和时序相关视觉区域。此外,由于属性子查询的空间定位应具有时序一致性,我们引入了TAS策略,通过使用原始视频帧和时序增强帧作为输入来组装预测,以帮助提高时序一致性。我们在多种MLLMs上评估了我们的方法,并展示了其在三个常见STVG基准测试上优于现有最先进方法的表现。 代码将发布于https://github.com/zaiquanyang/LLaVA_Next_STVG。
超声成像凭借其无电离辐射、成本低廉及实时成像的优势,已成为早期癌症筛查的首选影像学手段。然而,传统超声诊断高度依赖医师经验,存在主观性强、诊断效率低的问题。视觉-语言模型(VLMs)为此提供了潜在的解决方案,但现有通用模型在超声医学任务中知识储备有限,多器官病变识别泛化能力差,且跨任务诊断效率低下。针对这些局限,我们提出了EchoVLM,一款专为超声医学影像设计的视觉-语言模型。该模型采用专家混合(MoE)架构,基于涵盖七个解剖区域的数据进行训练,使其能够执行包括超声报告生成、诊断及视觉问答(VQA)在内的多项任务。实验结果显示,在超声报告生成任务中,EchoVLM相较于Qwen2-VL,BLEU-1和ROUGE-1分数分别显著提升了10.15和4.77分。这些发现表明,EchoVLM在提升超声成像诊断准确性方面具有巨大潜力,为未来临床应用提供了可行的技术方案。源代码及模型权重已发布于https://github.com/Asunatan/EchoVLM。
高分辨率遥感影像的变化检测是地球观测应用的核心基石,但其效果常受两大关键挑战制约。首先,模型易将时间变化(如光照、季节)引起的辐射差异误判为真实变化,导致误报频发。其次,深层抽象特征与浅层细节丰富特征之间存在不可忽视的语义鸿沟,阻碍了二者的有效融合,致使变化边界模糊不清。为深入解决这些问题,我们提出了频率-空间协同门控网络(FSG-Net),这一新颖范式旨在系统性地分离语义变化与干扰变异。具体而言,FSG-Net首先在频域操作,通过差异感知小波交互模块(DAWIM)自适应地处理不同频率成分,有效抑制伪变化。随后,在空间域中,协同时空注意力模块(STSAM)增强真实变化区域的显著性,进一步优化特征。最后,轻量级门控融合单元(LGFU)利用高层语义有选择性地门控并整合浅层关键细节,成功弥合语义鸿沟。在CDD、GZ-CD和LEVIR-CD基准数据集上的全面实验验证了FSG-Net的优越性,分别以94.16%、89.51%和91.27%的F1分数确立了新的技术标杆。代码将在可能发表后发布于https://github.com/zxXie-Air/FSG-Net。