每日精选AI研究论文及翻译
语言智能体的长期目标是通过自身经验进行学习与提升,最终在复杂的现实任务中超越人类。然而,在许多环境中,利用经验数据通过强化学习训练智能体仍然面临困难,这些环境要么缺乏可验证的奖励机制(如网站),要么需要低效的长周期展开(如多轮工具使用)。因此,当前大多数智能体依赖于对专家数据进行监督微调,这种方法难以扩展且泛化能力较差。这一局限源于专家示范的本质:它们仅捕捉了有限场景,使智能体暴露于环境多样性的狭窄范围。我们提出了一种折中范式,称为早期经验:即由智能体自身行为生成的交互数据,其中未来状态作为监督信号,无需奖励反馈。在此范式下,我们研究了两种利用此类数据的策略:(1)隐式世界建模,利用收集的状态将策略锚定于环境动态中;(2)自我反思,智能体从其次优行动中学习,以改进推理与决策能力。我们在八个多样化环境及多种模型家族中进行了评估。我们的方法持续提升了效能与跨领域泛化能力,凸显了早期经验的价值。此外,在具备可验证奖励的环境中,我们的结果提供了积极信号,表明早期经验为后续强化学习奠定了坚实基础,将其定位为模仿学习与完全经验驱动智能体之间的实用桥梁。
尽管当前的多模态大语言模型(MLLMs)在数学和逻辑等推理任务上已展现出熟练能力,但其长链反思推理能力——解决复杂现实问题的先决条件——仍很大程度上未被充分探索。在本研究中,我们首先开展了一项广泛的实证调查以评估这一能力。借助精心设计的数据合成引擎,我们构建了MM-HELIX,一个包含1,260个样本、涵盖42项挑战性合成任务的多模态基准,这些任务要求迭代思维和回溯。基于该基准的实证结果显示,现有MLLMs在长链反思推理方面存在显著的性能缺陷。为克服这一局限,我们生成了后训练数据,并进一步探索了利用此类数据的学习范式。我们首先开发了步骤引导响应生成流程,创建了MM-HELIX-100K,一个包含10万条高质量反思推理轨迹的大规模数据集,用于指令微调阶段。鉴于标准强化学习在复杂任务上因稀疏奖励信号及监督微调后的灾难性遗忘而失效,我们提出了自适应混合策略优化(AHPO),一种新颖的训练策略,动态地将离线监督与在线优化统一于单一阶段。该策略使模型能在奖励稀疏时从专家数据中学习,并在熟练后进行独立探索。将我们的方法应用于Qwen2.5-VL-7B基线模型时,在MM-HELIX基准上实现了+18.6%的准确率提升,并在一般数学和逻辑任务上展现出强大的泛化能力,平均性能增益达+5.7%。我们的研究表明,MLLMs中的反思推理能够被有效学习并泛化,为开发更强大的MLLMs铺平了道路。
随着数据的爆炸式增长,长序列建模在自然语言处理和生物信息学等任务中变得愈发重要。然而,现有方法在效率和内存之间面临固有的权衡。循环神经网络因梯度消失和爆炸问题而难以扩展。Transformer虽能建模全局依赖关系,却受限于二次方复杂度。近期,如Mamba等选择性状态空间模型展示了O(n)时间复杂度和O(1)递归推理的高效性,但其长程记忆呈指数衰减。本研究通过数学推导和信息论分析,系统揭示了Mamba的记忆衰减机制,解答了一个根本问题:Mamba的长程记忆本质是什么,它如何保留信息?为量化关键信息损失,我们进一步引入了水平-垂直记忆保真度指标,捕捉层内及跨层的信息退化。受人类阅读长文档时提炼并保留关键信息的启发,我们提出了MemMamba,一种新颖的架构框架,它整合了状态摘要机制与跨层跨令牌注意力,在保持线性复杂度的同时缓解了长程遗忘问题。MemMamba在PG19和Passkey Retrieval等长序列基准测试上显著优于现有Mamba变体和Transformer,推理效率提升了48%。理论分析与实证结果均表明,MemMamba在复杂度与记忆的权衡上实现了突破,为超长序列建模提供了新范式。
统一多模态模型在多模态内容生成与编辑方面已展现出显著成果,但主要局限于图像领域。本研究提出UniVideo,一个将统一建模扩展至视频领域的通用框架。UniVideo采用双流设计,结合了用于指令理解的多模态大语言模型(MLLM)与用于视频生成的多模态DiT(MMDiT),确保在准确解析复杂多模态指令的同时保持视觉一致性。基于此架构,UniVideo将多样化的视频生成与编辑任务统一于单一多模态指令范式下,并对其进行联合训练。大量实验表明,UniVideo在文本/图像到视频生成、上下文视频生成及上下文视频编辑任务中,达到或超越了当前最先进的特定任务基线。尤为突出的是,UniVideo的统一设计实现了两种形式的泛化能力:其一,通过单一指令整合多项功能,支持任务组合,如将编辑与风格迁移相结合;其二,即便未针对自由形式视频编辑进行专门训练,UniVideo也能将其从大规模图像编辑数据中习得的编辑能力迁移至此场景,处理诸如绿幕抠像或视频内材质替换等未见指令。此外,UniVideo还支持基于视觉提示的视频生成,其中MLLM解析视觉提示并在合成过程中指导MMDiT。为推动未来研究,我们将公开模型与代码。
我们提出了任意时空视频补全任务,该任务旨在根据用户指定的任意空间位置和时间戳上的补丁生成视频,类似于在视频画布上作画。这一灵活的表述自然地将许多现有的可控视频生成任务——包括首帧图像到视频、修复、扩展和插值——统一在一个单一、连贯的范式之下。然而,实现这一愿景面临现代潜在视频扩散模型中的一个根本性障碍:因果变分自编码器(VAE)引入的时间模糊性,其中多个像素帧被压缩为单一的潜在表示,使得精确的帧级条件控制在结构上变得困难。我们通过VideoCanvas框架应对这一挑战,该框架将上下文内条件(ICC)范式适应于这一细粒度控制任务,且无需新增参数。我们提出了一种混合条件策略,将空间和时间控制解耦:空间布局通过零填充处理,而时间对齐则通过时间RoPE插值实现,该方法为每个条件在潜在序列中分配一个连续的小数位置。这解决了VAE的时间模糊性问题,并在冻结的骨干网络上实现了像素帧感知的控制。为了评估这一新能力,我们开发了VideoCanvasBench,这是首个针对任意时空视频补全的基准测试,涵盖了场景内保真度和场景间创造力。实验表明,VideoCanvas显著优于现有的条件范式,在灵活且统一的视频生成领域确立了新的技术前沿。
化学反应推荐旨在为化学反应选择适宜的反应条件参数,这对加速化学科学发展至关重要。随着大语言模型(LLMs)的快速发展,人们越来越关注利用其推理与规划能力进行反应条件推荐。尽管现有方法已取得一定成功,但它们很少解释推荐反应条件背后的逻辑,这限制了其在高风险科学工作流程中的应用。在本研究中,我们提出了ChemMAS,一个多智能体系统,它将条件预测重构为基于证据的推理任务。ChemMAS将任务分解为机制基础、多通道回忆、约束感知的智能体辩论及理由整合四个环节。每个决策均以化学知识和检索到的先例为基础,提供可解释的论证。实验表明,ChemMAS在领域特定基线模型上实现了20-35%的性能提升,并在Top-1准确率上超越通用LLMs 10-15%,同时提供了可验证、可信赖的人类可理解理由,为科学发现中的可解释AI树立了新的范式。
近期关于推理模型的研究探索了语言模型的元认知能力,即模型自主思考的能力。我们通过证明真实推理过程与预测元信息之间的严重不一致,指出大型推理模型缺乏这种元认知特性。我们认为,将元预测与真实推理过程对齐将带来显著的性能提升。为验证这一假设,我们设计了一种通过自我对齐增强元认知(MASA)的训练流程,并证明增强的元认知直接转化为准确率的提升。与现有的元认知推理模型不同,我们的方法无需外部训练资源,而是利用自生成的信号来训练元认知。此外,我们的方法通过以下两点实现了高效训练:一是过滤掉那些过于简单或无法解决的零方差提示,二是在推理过程不太可能导向正确答案时及时终止冗长的推理链。实验结果令人鼓舞:我们的策略在领域内任务上显著提升了准确率和训练效率,并在跨领域基准测试中展现出强大的泛化能力。具体而言,我们的方法能将GRPO训练速度提升超过1.28倍以达到相同性能,在AIME25上实现19.3%的准确率提升,并在六个数学基准测试上平均提升6.2%。通过元认知指导的训练增强了跨领域泛化能力,在GPQA-Diamond上提升了3.87%,在涵盖逻辑、科学和编程领域的13个基准测试上整体准确率提升了2.08%。
近期,长上下文语言模型(LCLMs)能够一次性处理数十万标记,这为知识密集型多跳推理开辟了新途径,通过整合大量检索文档或直接包含所有必要信息。然而,仅简单地将更多文档输入上下文窗口,未能有效捕捉证据间的关联方式。我们通过思维模板填补了这一空白,这些模板将推理重塑为可重复使用的思维缓存,源自先前的解题轨迹,结构化证据的组合方式,并指导基于事实文档的多跳推理。为确保这些模板的有效性,我们提出了一种更新策略,通过自然语言反馈迭代优化从训练数据中提取的模板。在多种基准测试和LCLM家族中,我们的方法在基于检索和无检索的设定下均显著超越了强基线。此外,我们展示了优化后的模板可被蒸馏至更小的开源模型中,证明了其广泛的适用性和透明的推理复用性。我们将此框架称为“思维模板增强的长上下文语言模型”(ToTAL)。
驾驭大语言模型(LLMs)的力量,需在助益与无害之间精妙平衡。这便引发了两大挑战间的根本张力:一是易受对抗性攻击诱导产生不安全内容,二是对无害却敏感提示的过度拒绝倾向。当前方法常依赖安全防护模型,彻底屏蔽任何含不安全成分的内容,此举无异于中断了舞曲——不仅可能加剧过度拒绝,还无法为被拒查询提供细致指导。为教会模型更协调的舞步,我们提出了WaltzRL,一个新颖的多智能体强化学习框架,将安全对齐视为协作共赢的游戏。WaltzRL同时训练对话智能体与反馈智能体,后者被激励提供有益建议,以提升对话智能体回应的安全性与助益性。其核心在于动态改进奖励(DIR),该奖励随时间演进,依据对话智能体采纳反馈的效果而定。在推理阶段,对话智能体的不安全或过度拒绝回应会被改进而非直接丢弃。反馈智能体与对话智能体协同部署,仅在必要时自适应介入,确保安全查询的助益性与低延迟。我们在五个多样化数据集上的实验表明,相较于多种基线,WaltzRL显著减少了不安全回应(如在WildJailbreak上从39.0%降至4.6%)和过度拒绝(在OR-Bench上从45.3%降至9.9%)。通过促使对话与反馈智能体共同进化并自适应应用反馈,WaltzRL在不削弱通用能力的前提下增强了LLM的安全性,从而推进了助益与无害之间的帕累托前沿。
近期,基于指令的图像编辑和主体驱动生成技术取得了显著进展,但这两项任务在满足实际用户需求方面仍存在局限。基于指令的编辑仅依赖语言指令,往往难以捕捉具体的编辑细节,因此需要参考图像。而主体驱动生成则局限于结合具体物体或人物,忽视了更广泛的抽象概念。为解决这些挑战,我们提出了两项新任务:多模态指令驱动的编辑与生成。这些任务同时支持文本和图像指令,并将应用范围扩展至具体与抽象概念,极大地提升了其实用性。我们推出了DreamOmni2,主要应对数据创建和模型框架设计两大挑战。我们的数据合成流程包含三个步骤:(1) 采用特征混合方法为抽象与具体概念创建提取数据,(2) 利用编辑与提取模型生成多模态指令驱动的编辑训练数据,(3) 进一步应用提取模型制作多模态指令驱动编辑的训练数据。在框架设计上,为处理多图像输入,我们提出了索引编码与位置编码偏移方案,帮助模型区分图像并避免像素混淆。此外,我们引入了与视觉语言模型(VLM)及我们的生成/编辑模型联合训练的方法,以更好地处理复杂指令。同时,我们为这两项新任务提出了全面的基准测试,以推动其发展。实验表明,DreamOmni2已取得令人瞩目的成果。模型与代码将予以公开。
基于可验证奖励的强化学习(RLVR)在推动大语言模型进行复杂推理方面取得了显著进展,但其扩展性常受限于训练瓶颈:随着策略熵的坍缩,性能趋于停滞,这标志着探索能力的丧失。传统方法通常通过维持高策略熵来解决这一问题,然而,对于有效探索机制的具体理解仍显不足。我们的分析表明,不加选择地关注熵值可能会放大无关词汇,进而扰乱训练过程。本文深入探讨了RLVR中的探索动态,揭示了一个关键问题:有价值的低概率探索性词汇——我们称之为“推理火花”——在训练过程中被逐步淘汰。我们发现,尽管这些火花在预训练模型中大量存在,但在RLVR过程中却因过度惩罚而系统性地消失,导致探索能力的退化。针对此问题,我们提出了低概率正则化(Lp-Reg)。其核心机制通过将策略正则化至一个启发式代理分布来实现。该代理分布通过滤除疑似噪声词汇并对剩余候选词汇重新归一化构建而成,从而形成一个噪声较少的代理分布,其中推理火花的概率被放大,进而作为软正则化目标,通过KL散度保护这些宝贵词汇免遭淘汰。实验表明,Lp-Reg能够在约1000步的在线训练中保持稳定,而基线熵控制方法在此范围内已失效。这种持续的探索能力带来了最先进的性能表现,在五个数学基准测试中平均准确率达到60.17%,较之前方法提升了2.66%。代码已发布于https://github.com/CarlanLark/Lp-Reg。
大型语言模型正逐渐成为科学定律发现的有力工具,这是AI驱动科学中的一个基础性挑战。然而,现有针对此任务的基准测试面临一个根本性的方法论三难困境,迫使在科学相关性、可扩展性和抗记忆性之间做出权衡。此外,这些基准将发现过程过度简化为静态函数拟合,未能捕捉到通过复杂模型系统的交互探索来揭示嵌入定律的真实科学过程。为解决这些关键缺陷,我们引入了NewtonBench,一个包含12个物理领域中324个科学定律发现任务的基准测试。我们的设计通过使用形而上学转变——对经典定律的系统性修改——来生成大量既具有可扩展性、科学相关性又抗记忆性的问题,从而缓解了评估三难困境。此外,我们将评估从静态函数拟合提升到交互式模型发现,要求智能体通过实验探测模拟的复杂系统以揭示隐藏原理。我们的大量实验揭示了前沿LLM在发现能力上的明确但脆弱的特性:随着系统复杂性的增加,这种能力急剧下降,并且对观测噪声表现出极端的敏感性。值得注意的是,我们发现了一个工具辅助的悖论效应:提供代码解释器可能会阻碍更有能力的模型,因为它会诱导模型过早地从探索转向利用,导致它们满足于次优解。这些结果表明,在复杂、交互环境中实现稳健、可推广的发现仍然是核心挑战。通过提供一个可扩展、稳健且科学真实的测试平台,NewtonBench为衡量真实进展和指导能够实现真正科学发现的下一代AI智能体的开发提供了关键工具。
近期,大型语言模型(LLM)代理的进展展现了其广泛的应用潜力。然而,在特定现实领域中的表现往往因难以有效整合外部工具及特定提示策略而大打折扣。尽管已有如代理强化学习等方法被提出以应对此问题,但这些方法通常依赖于代价高昂的参数更新,例如通过监督微调(SFT)结合使用群体相对策略优化(GRPO)的强化学习(RL)阶段来调整输出分布。然而,我们认为,LLM通过学习经验知识作为令牌先验,能够对输出分布产生类似效果,这是一种更为轻量级的方法,不仅解决了实际数据稀缺的问题,还避免了常见的过拟合现象。为此,我们提出了无需训练的群体相对策略优化(Training-Free GRPO),这是一种无需参数更新的高效解决方案,旨在提升LLM代理的性能。我们的方法利用群体间的相对语义优势而非数值优势,在少量真实数据上进行多轮学习,迭代提炼高质量的经验知识。此类知识作为学习到的令牌先验,在LLM API调用时无缝集成,以指导模型行为。在数学推理和网络搜索任务上的实验表明,将Training-Free GRPO应用于DeepSeek-V3.1-Terminus后,其跨领域性能显著提升。仅需数十个训练样本,Training-Free GRPO便能在边际训练数据与成本下,超越经过微调的小型LLM。
大型语言模型(LLM)推理的后训练日益依赖于可验证的奖励:即提供0-1正确性信号的确定性检查器。尽管这种二元反馈可靠,但它显得脆弱——许多任务允许部分正确或替代答案,而验证器往往低估了这些答案,由此产生的全有或全无的监督限制了学习效果。奖励模型提供了更为丰富、连续的反馈,可作为验证器监督信号的补充。我们引入了HERO(混合集成奖励优化),这是一个强化学习框架,它以结构化的方式将验证器信号与奖励模型评分相结合。HERO采用分层归一化方法,将奖励模型评分限定在验证器定义的组别内,在保持正确性的同时细化质量区分,并通过方差感知加权来强调那些密集信号最为关键的挑战性提示。在多样化的数学推理基准测试中,HERO始终优于仅使用奖励模型或仅依赖验证器的基线方法,在可验证及难以验证的任务上均取得了显著提升。我们的结果表明,混合奖励设计既保留了验证器的稳定性,又充分利用了奖励模型的细微差别,从而推动了推理能力的进步。
基于单目图像序列的实时三维重建是计算机视觉领域长期面临的挑战,对于真实到虚拟(real-to-sim)、增强现实/虚拟现实(AR/VR)以及机器人技术等应用至关重要。现有方法面临一个主要权衡:针对特定场景的优化虽能获得高保真度,但计算成本高昂;而前馈式基础模型虽能实现实时推理,却在精度和鲁棒性上表现欠佳。本文提出ARTDECO,一个统一框架,它结合了前馈模型的高效性与基于SLAM(同步定位与地图构建)管道的可靠性。ARTDECO利用三维基础模型进行姿态估计与点云预测,并配备一个高斯解码器,将多尺度特征转化为结构化的三维高斯分布。为了在保持高保真度的同时实现大规模场景下的高效处理,我们设计了一种层次化的高斯表示方法,结合细节层次(LoD)感知的渲染策略,既提升了渲染质量又减少了冗余。在八个多样化的室内外基准测试上的实验表明,ARTDECO在交互性能上可与SLAM媲美,在鲁棒性上接近前馈系统,重建质量则逼近针对特定场景的优化结果,为实时数字化真实世界环境提供了一条实用路径,兼具精确几何与高视觉保真度。更多演示请访问我们的项目页面:https://city-super.github.io/artdeco/。
并行扩展已成为提升大语言模型(LLMs)推理能力的一种强大范式,它通过同时生成多条思维链(CoT)轨迹来实现。然而,这种方法因轨迹间冗余而带来了显著的运算效率低下——我们的分析显示,超过80%的并行推理轨迹最终得出相同答案,意味着大量计算资源被浪费。针对这一关键效率瓶颈,我们提出了DeepPrune,一个通过动态剪枝实现高效并行扩展的新框架。我们的方法采用了一个专门训练的评判模型,结合焦点损失和过采样技术,能够从部分推理轨迹中准确预测答案等价性,在等价性预测上实现了0.87的AUROC值,并配合一种在线贪心聚类算法,动态剪除冗余路径,同时保持答案的多样性。在三个具有挑战性的基准测试(AIME 2024、AIME 2025和GPQA)及多种推理模型上的全面评估表明,DeepPrune在大多数情况下相比传统共识采样实现了超过80%的token减少,同时保持了在3个百分点以内的竞争性准确率。我们的工作为高效并行推理设立了新标准,使高性能推理更加高效。我们的代码和数据可在此获取:https://deepprune.github.io/
近期,大型语言模型在推理能力上展现出显著提升,这常归因于其能够生成长链条的思维过程并参与反思性推理。然而,反思对性能提升的具体贡献尚不明确。本文中,我们系统分析了八种推理模型在五个数学数据集上的推理轨迹,特别关注模型在已生成答案后仍继续反思直至最终输出的行为模式。分析表明,反思行为大多具有确认性质,极少改变模型的初始答案,这一现象在不同模型和数据集间保持一致。为探究反思在训练中的作用,我们构建了包含不同反思步骤数量的监督微调(SFT)数据集。研究发现,在包含更多反思步骤的推理轨迹上训练模型,主要提升了首次回答的正确率,而非通过反思纠正初始错误答案的能力。基于此,我们提出了一种问题感知的早停策略,该策略在推理过程中一旦生成若干可信候选答案即终止推理,从而减少不必要的反思步骤,提高推理时的token效率。进一步地,我们提出在生成过程中动态截断候选答案出现后的反思,这一方法在五个数学数据集上减少了24.5%的推理token,同时仅带来2.9%的准确率下降。
先前研究表明,在特定狭窄领域(如不安全代码或错误医疗建议)中针对恶意或不正确补全进行微调的大型语言模型(LLMs)可能会广泛偏离预期,表现出有害行为,这种现象被称为“涌现性失准”。本研究中,我们探讨了此现象是否能够超越安全行为范畴,延伸至高风险情境下的不诚实与欺骗行为(例如,压力下的谎言及欺骗性行为)。为此,我们在多个领域对开源LLMs进行了失准补全的微调。实验结果显示,LLMs在不诚实方面展现出广泛的失准行为。此外,我们进一步在混合下游微调设置中探索这一现象,发现仅需在标准下游任务中引入1%的失准数据,即可使诚实行为下降超过20%。更进一步,我们考虑了一个更为实际的人机交互环境,模拟了良性及带有偏见的用户与助手LLM的互动。值得注意的是,我们发现,仅需10%的偏见用户群体,助手LLM便可能无意间被失准,加剧其不诚实行为。总之,我们将涌现性失准的研究扩展至高风险情境下的不诚实与欺骗领域,并证明这一风险不仅通过直接微调产生,也存在于下游混合任务及实际的人机交互之中。
级联视频超分辨率技术已成为一种颇具前景的方法,它能够有效分解使用大型基础模型生成高分辨率视频所带来的计算负担。然而,现有研究主要局限于文本到视频任务,未能充分利用文本之外的其他生成条件,而这些条件对于确保多模态视频生成的保真度至关重要。针对这一局限,我们提出了UniMMVSR,这是首个整合了混合模态条件(包括文本、图像和视频)的统一生成式视频超分辨率框架。我们在潜在视频扩散模型中,对条件注入策略、训练方案及数据混合技术进行了全面探索。一个关键挑战在于设计独特的数据构建和条件利用方法,使模型能够精确利用所有条件类型,考虑到它们与目标视频之间存在的不同关联性。实验结果表明,UniMMVSR显著优于现有方法,生成的视频细节更为丰富,且与多模态条件的符合度更高。我们还验证了将UniMMVSR与基础模型结合,实现多模态引导下4K视频生成的可行性,这一成就此前利用现有技术难以企及。
组合式训练一直是现有多模态大语言模型(MLLMs)的实际范式,其中预训练的视觉编码器通过连续的多模态预训练与预训练的大语言模型(LLMs)相连接。然而,由于这种分离式训练,该范式的多模态扩展特性仍难以探究。本文聚焦于以端到端方式原生训练MLLMs,并在实际数据受限的设定下,系统性地研究其设计空间与扩展特性。通过对MLLM中多种选择的细致研究,我们获得了在性能与训练成本之间最佳平衡的元架构。随后,我们进一步探索了原生MLLM的扩展特性,揭示了视觉编码器与LLMs之间正相关的扩展关系。基于这些发现,我们提出了一种名为NaViL的原生MLLM,并搭配了一套简单且成本效益高的训练方案。在14个多模态基准上的实验结果证实了NaViL相较于现有MLLMs的竞争优势。此外,我们的发现与结果为未来原生MLLMs的深入研究提供了深刻的洞见。
自我进化是推动基于大规模语言模型(LLM)的智能体在预训练后持续提升能力的一个核心研究课题。近期研究见证了从无强化学习(RL)方法向基于RL方法的转变。当前的基于RL的方法要么依赖于密集的外部奖励信号,要么从LLM自身提取内在奖励信号。然而,这些方法与人智中观察到的自我进化机制存在偏差,后者中个体通过相互讨论与协作来学习与进步。本研究中,我们引入了协同进化多智能体系统(CoMAS),这是一个新颖的框架,它使得智能体能够在无外部监督的情况下,通过智能体间的交互学习来自主提升。CoMAS从丰富的讨论动态中生成内在奖励,采用LLM作为评判者的机制来构建这些奖励,并通过RL优化每个智能体的策略,从而实现去中心化且可扩展的协同进化。实验结果表明,CoMAS在多数评估设置中均优于未经训练的智能体,并达到了最先进的性能。消融研究证实了基于交互的奖励信号的必要性,并揭示了随着智能体数量与多样性的增加,系统展现出良好的可扩展性。这些发现确立了CoMAS作为LLM基智能体自我进化的一种新颖且有效的范式。
我们致力于解决基于扩散模型的视频风格迁移任务,其目标是在保持输入视频内容的同时,根据文本提示将其渲染为目标风格。这一任务面临的主要挑战是缺乏成对的视频数据用于监督。为此,我们提出了PickStyle,一个视频到视频风格迁移框架,该框架通过风格适配器增强预训练的视频扩散模型骨干,并利用具有源风格对应关系的成对静态图像数据进行训练。PickStyle在条件模块的自注意力层中嵌入低秩适配器,实现了对运动风格迁移的高效专门化,同时确保了视频内容与风格之间的强对齐。为了弥合静态图像监督与动态视频之间的差距,我们通过对成对图像应用模拟相机运动的共享增强来构建合成训练片段,从而保留时间先验。此外,我们引入了上下文-风格无分类器指导(CS-CFG),这是一种将无分类器指导分解为独立文本(风格)和视频(上下文)方向的新颖方法。CS-CFG确保生成视频中上下文得以保留,同时风格得到有效迁移。跨基准的实验表明,我们的方法实现了时间连贯、风格忠实且内容保持的视频转换,在质量和数量上均优于现有基线。
随着多模态大语言模型(MLLMs)在视觉理解与推理方面取得显著进展,利用其提升扩散模型编辑性能的兴趣日益浓厚。尽管进展迅速,但多数研究对MLLM设计选择缺乏深入分析。此外,在某些复杂任务如视频编辑中,MLLMs与扩散模型的整合仍面临挑战。本文提出InstructX,一个统一的图像与视频编辑框架。具体而言,我们全面研究了如何将MLLMs与扩散模型结合,以支持跨多样任务的指令驱动编辑。基于此研究,我们分析了统一建模下图像与视频间的协作与差异:(1) 我们展示了仅通过图像数据训练,无需显式监督即可涌现视频编辑能力,从而缓解视频训练数据稀缺的限制。(2) 通过融入模态特定的MLLM特征,我们的方法有效实现了单一模型内图像与视频编辑任务的统一。大量实验证明,我们的方法能够处理广泛的图像与视频编辑任务,并达到业界领先的性能水平。
奖励模型(RM)在将大型语言模型(LLM)与人类偏好对齐方面发挥着关键作用。随着现实世界应用越来越多地涉及长历史轨迹,例如LLM代理,评估模型的响应是否不仅高质量,而且基于并符合所提供的上下文,变得不可或缺。然而,当前的RM仍局限于短上下文设置,主要关注响应级别的属性(如安全性或有用性),而很大程度上忽视了长上下文与响应一致性的关键维度。在本研究中,我们引入了Long-RewardBench,一个专门为长上下文RM评估设计的基准,包含成对比较和最佳N项任务。我们的初步研究表明,即使是最先进的生成式RM在长上下文场景中也表现出显著的脆弱性,无法维持上下文感知的偏好判断。基于对模型输出中观察到的失败模式的分析,我们提出了一种通用的多阶段训练策略,能够有效地将任意模型扩展为稳健的长上下文RM(LongRMs)。实验表明,我们的方法不仅显著提高了长上下文评估的性能,还保持了强大的短上下文能力。值得注意的是,我们的8B LongRM超越了规模大得多的70B基线,并与专有的Gemini 2.5 Pro模型的性能相匹配。
多模态检索增强生成(MM-RAG)是将大型语言模型(LLMs)与智能体应用于现实世界知识库的关键方法,然而当前的评估体系较为零散,往往孤立地关注文本或图像,或局限于简化的多模态设置,未能充分体现文档中心的多模态应用场景。本文中,我们推出了UniDoc-Bench,这是首个基于8个领域、70,000页真实PDF文档构建的大规模、贴近实际的多模态检索增强生成基准。我们的处理流程从文本、表格及图表中提取并关联证据,进而生成了涵盖事实检索、比较、摘要及逻辑推理查询的1,600对多模态问答对。为确保数据可靠性,20%的问答对经过多位标注者及专家仲裁的验证。UniDoc-Bench支持在统一协议下,采用标准化的候选池、提示语及评估指标,对四种范式进行公平比较:(1)纯文本,(2)纯图像,(3)多模态文本-图像融合,以及(4)多模态联合检索。实验结果表明,多模态文本-图像融合的RAG系统在性能上持续超越单模态及基于联合多模态嵌入的检索,这证实了仅依赖文本或图像均不足够,且当前的多模态嵌入技术仍有待提升。除基准测试外,我们的分析还揭示了视觉语境在何时及如何补充文本证据,识别了系统性的失败模式,并为开发更健壮的多模态检索增强生成流程提供了可操作的指导。
大型语言模型在多个领域展现了卓越的能力,然而在将其部署为AI代理以执行现实世界中的长期任务时,仍面临重大挑战。现有的LLM代理存在一个关键局限:它们在测试时是静态的,无法从经验中学习,缺乏积累知识和在工作中持续改进的能力。为应对这一挑战,我们提出了MUSE,一种新颖的代理框架,它引入了一个以分层记忆模块为核心的、经验驱动的自我进化系统。MUSE组织不同层次的经验,并利用这些经验来规划和执行跨多个应用的长期任务。每次子任务执行后,代理自主反思其轨迹,将原始轨迹转化为结构化经验,并将其整合回记忆模块。这一机制使代理能够超越其静态预训练参数,促进持续学习和自我进化。我们在长期生产力基准TAC上评估了MUSE。仅使用轻量级的Gemini-2.5 Flash模型,MUSE便以显著优势达到了新的SOTA性能。充分的实验表明,随着代理自主积累经验,其任务完成能力不断提升,同时展现出强大的持续学习和自我进化能力。此外,MUSE积累的经验表现出强大的泛化特性,能够在新任务上实现零样本提升。MUSE为能够自动化现实世界生产力任务的AI代理确立了一个新范式。
本研究聚焦于一项具有挑战性但前景广阔的任务——文本到有声视频(T2SV)生成,旨在根据文本条件生成带有同步音频的视频,同时确保两种模态与文本内容对齐。尽管在联合音视频训练方面已取得进展,仍有两个关键挑战亟待解决:(1)单一共享的文本描述,即视频与音频的文本相同,常导致模态干扰,混淆预训练骨干网络;(2)跨模态特征交互的最佳机制尚不明确。为应对这些挑战,我们首先提出了层次化视觉引导描述生成(HVGC)框架,该框架生成解耦的视频描述和音频描述对,在条件阶段消除干扰。基于HVGC,我们进一步引入了BridgeDiT,一种新颖的双塔扩散变换器,采用双交叉注意力(DCA)机制作为稳健的“桥梁”,实现对称、双向的信息交换,达成语义与时间同步。在三个基准数据集上的大量实验,辅以人工评估,证明我们的方法在多数指标上达到了最先进水平。全面的消融研究进一步验证了我们贡献的有效性,为未来T2SV任务提供了关键洞见。所有代码和检查点将公开发布。
尽管诸如群体相对偏好优化(GRPO)等强化学习方法已显著提升了大型语言模型的性能,但将其应用于扩散模型仍面临挑战。特别是,GRPO要求采用随机策略,而最具成本效益的扩散采样器却基于确定性常微分方程(ODE)。近期研究通过使用效率较低的基于随机微分方程(SDE)的采样器来引入随机性,但这种方法依赖于模型无关的高斯噪声,导致收敛速度缓慢。为解决这一矛盾,我们提出了直接群体偏好优化(DGPO),这是一种全新的在线强化学习算法,完全摒弃了策略梯度框架。DGPO直接从群体层面的偏好中学习,这些偏好利用了群体内样本的相对信息。这一设计消除了对低效随机策略的需求,从而能够使用高效的确定性ODE采样器,实现更快的训练速度。大量实验结果表明,DGPO的训练速度比现有最先进方法快约20倍,并在域内和域外奖励指标上均表现出更优的性能。代码已发布于https://github.com/Luo-Yihong/DGPO。
大型多模态模型(LMMs)在多种能力上取得了显著进展;然而,在科学领域进行复杂的视频推理仍然是一个重要且充满挑战的前沿。当前的视频基准主要针对依赖大量感知/识别的通用场景,而推理任务相对简单,导致性能饱和,无法有效评估高级多模态认知技能。为解决这一关键缺口,我们推出了SciVideoBench,这是一个专门设计用于评估科学背景下高级视频推理的严格基准。SciVideoBench包含1000道精心设计的选择题,这些题目源自跨越25个专业学术领域的前沿科学实验视频,并通过半自动系统验证。每道题目都需要深入的领域知识、精确的时空感知以及复杂的逻辑推理,有效挑战模型的高阶认知能力。我们的评估揭示了包括Gemini 2.5 Pro和Qwen2.5-VL在内的最先进专有和开源LMMs在视频推理能力上的显著不足,表明其仍有巨大的提升空间。对推理复杂性和视觉基础等关键因素的详细分析,为LMMs的未来发展提供了宝贵的见解和明确的方向,推动真正具备能力的多模态AI合作科学家的进化。我们希望SciVideoBench能够契合社区的兴趣,并助力推动前沿AI在更广泛科学领域的边界拓展。
本研究首次将连续时间一致性蒸馏技术扩展至通用应用级的图像与视频扩散模型。尽管连续时间一致性模型(sCM)在理论上严谨且实证中展现出加速学术规模扩散的强大能力,但由于雅可比向量积(JVP)计算的基础设施挑战及标准评估基准的局限性,其在大规模文本到图像和视频任务中的适用性尚不明确。我们首先开发了一种兼容并行计算的FlashAttention-2 JVP内核,使得sCM能够在超过100亿参数的模型及高维视频任务上进行训练。通过深入探究,我们揭示了sCM在精细细节生成方面的本质质量限制,归因于误差累积及其前向散度目标的“模式覆盖”特性。为弥补这一不足,我们提出了分数正则化的连续时间一致性模型(rCM),该模型通过引入分数蒸馏作为长跳跃正则化器,将“模式寻求”的反向散度与sCM相结合,有效提升了视觉质量同时保持了高生成多样性。在参数高达140亿的Cosmos-Predict2、Wan2.1等大规模模型及5秒视频上的验证表明,rCM在质量指标上匹配甚至超越了当前最先进的蒸馏方法DMD2,同时在多样性方面展现出显著优势,且无需GAN调优或大量超参数搜索。蒸馏后的模型仅需1至4步即可生成高保真样本,将扩散采样速度提升了15至50倍。这些成果确立了rCM作为一个实用且理论扎实的框架,在推进大规模扩散蒸馏领域具有重要地位。
尽管近期推理模型的进展通过强化学习展现了认知行为,现有方法在多轮交互的长时程智能体上仍难以激发深层推理能力。我们提出DeepMiner,这一新颖框架通过引入高难度训练任务和动态上下文窗口来激发此类能力。DeepMiner采用逆向构建方法,从真实网络资源中生成复杂但可验证的问答对,既确保了训练数据的挑战性与可靠性,又为多轮推理场景注入了认知能力。我们进一步设计了一种简洁而高效的动态上下文管理策略,适用于训练与推理阶段,利用滑动窗口机制,同时摆脱对外部摘要模型的依赖,从而有效赋能模型处理持续扩展的长时程上下文。通过在Qwen3-32B上进行强化学习,我们开发了DeepMiner-32B,在多个搜索智能体基准测试中实现了显著的性能提升。DeepMiner在BrowseComp-en上达到33.5%的准确率,较之前最佳开源智能体提升了近20个百分点,并在BrowseComp-zh、XBench-DeepSearch和GAIA上持续展现改进。尤为突出的是,我们的动态上下文管理使得在标准32k上下文长度内实现了近100轮的持续交互,有效解决了现有多轮交互系统面临的上下文限制问题。
奖励建模是强化学习从人类反馈(RLHF)的核心,然而现有的大多数奖励模型依赖于标量或成对判断,未能捕捉人类偏好的多维度特性。近期研究探索了“准则即奖励”(RaR)方法,它采用结构化的自然语言标准来捕捉响应质量的多个维度。然而,制定既可靠又可扩展的准则仍是一个关键挑战。在本研究中,我们推出了OpenRubrics,这是一个多样化的、大规模的(提示,准则)对集合,用于训练准则生成和基于准则的奖励模型。为了引出具有区分性和全面性的评估信号,我们引入了对比准则生成(CRG),通过对比优选和拒绝的响应,推导出硬性规则(显式约束)和原则(隐性品质)。我们进一步通过拒绝采样来强制偏好标签一致性,去除噪声准则,从而提升可靠性。在多个奖励建模基准测试中,我们的基于准则的奖励模型Rubric-RM超越了同等规模的基线模型6.8%。这些优势在指令遵循和生物医学基准测试中的策略模型上得到了转移。我们的结果表明,准则提供了可扩展的对齐信号,缩小了昂贵的人类评估与自动化奖励建模之间的差距,为LLM对齐开启了一种新的原则驱动范式。
我们提出了ERA这一新范式,通过对模型输出施加特殊设计的激活函数,将采样熵约束在给定阈值之上。我们的方法在不同领域展现出广泛的有效性:1) 对于大语言模型(LLMs),将Qwen2.5-Math-7B在AIME 2025上的得分提升了37.4%;2) 对于连续控制强化学习智能体,在HumanoidBench等挑战性任务上,相较于SAC等强基线,性能提升超过30%;3) 在图像分类任务中,ResNet-50在ImageNet上的top-1准确率提高了0.69%。这些性能提升仅带来了不到7%的计算开销。我们的工作验证了输出激活作为熵控制的有力工具,为设计更简单、更鲁棒的算法开辟了新方向。
大型语言模型(LLMs)的显著成功源于其在预训练阶段将海量知识整合至记忆,并在推理过程中从记忆中检索的能力,从而实现了知识记忆、指令遵循及推理等高级功能。然而,LLMs中记忆检索与整合的机制仍鲜为人知。本文提出功能词假设以解释LLMs的工作原理:在推理过程中,功能词激活上下文中最具预测性的特征,并主导下一个词的预测(记忆检索)。在预训练阶段,预测功能词之后的下一个词(通常为内容词)增加了LLMs学习到的特征数量,并更新了模型参数(记忆整合)。此处的功能词大致对应于语言学中的功能词,包括标点符号、冠词、介词和连词,与内容词形成对比。我们提供了大量实验证据支持这一假设。通过二分图分析,我们展示了少数功能词激活了大部分特征。案例研究进一步揭示了功能词如何激活上下文中最具预测性的特征,以指导下一个词的预测。我们还发现,在预训练期间,训练损失主要由预测功能词之后的内容词所主导,这迫使功能词从上下文中选择最具预测性的特征。
大型语言模型预训练所需计算成本的快速增长,亟需更高效的解决方案。现有训练良好的模型检查点已投入大量计算资源,但由于工程限制或模型容量不足,许多资源未能充分利用。为有效回收这些“沉没”成本,我们提出通过扩展参数规模并继续训练来循环利用预训练检查点。我们针对已收敛的专家混合模型,提出了正交增长方法:通过层间复制实现深度扩展,以及通过注入噪声的专家复制实现宽度扩展。为确定检查点序列中此类增长的最佳时机,我们进行了全面的扩展实验,结果表明最终准确率与沉没成本量呈显著正相关,即前期投入越大,性能提升越明显。我们将该方法应用于参数规模达700亿、训练token数超1万亿的模型,在相同额外计算预算下,相比从头训练实现了10.66%的准确率提升。我们的检查点循环利用方法为经济高效的大型语言模型预训练奠定了基础。
我们推出UP2You,这是首个无需调优即可从极度无约束的野外二维照片中重建高保真三维穿衣人像的解决方案。与以往需要“干净”输入(如全身图像且遮挡最少,或经过良好校准的跨视角捕捉)的方法不同,UP2You直接处理原始、非结构化的照片,这些照片在姿态、视角、裁剪和遮挡方面可能存在显著差异。我们摒弃了将数据压缩为标记以进行缓慢的在线文本到三维优化的做法,而是引入了一种数据校正范式,该范式能在单次前向传播中,在几秒内高效地将无约束输入转换为干净、正交的多视角图像,从而简化三维重建过程。UP2You的核心是一个姿态关联特征聚合模块(PCFA),它根据目标姿态有选择地融合来自多个参考图像的信息,实现了更好的身份保持和近乎恒定的内存占用,同时增加了观测次数。我们还引入了一种基于感知器的多参考形状预测器,消除了对预捕捉身体模板的需求。在4D-Dress、PuzzleIOI及野外捕捉数据集上的大量实验表明,UP2You在几何精度(PuzzleIOI上Chamfer降低15%,P2S降低18%)和纹理保真度(4D-Dress上PSNR提升21%,LPIPS降低46%)方面均持续超越先前方法。UP2You高效(每人1.5分钟),且功能多样(支持任意姿态控制,以及无需训练的多服装三维虚拟试穿),使其适用于人类被随意捕捉的真实场景。我们将发布模型和代码,以促进这一尚未充分探索任务的研究。项目页面:https://zcai0612.github.io/UP2You
实现通用的手内物体旋转仍然是机器人学中的一大挑战,这主要源于将策略从仿真环境迁移至现实世界的困难。灵巧操作中复杂且接触密集的动力学特性造成了“现实鸿沟”,使得先前的研究仅限于涉及简单几何形状、有限物体尺寸和长宽比、受限手腕姿态或定制化手部的约束场景。我们通过一种新颖的框架应对这一仿真到现实的挑战,该框架使得在仿真中训练的单条策略能够泛化到现实世界中多种多样的物体和条件下。我们方法的核心在于一个关节级动力学模型,它通过学习有效拟合有限量的现实世界采集数据,并据此调整仿真策略的动作,从而弥合现实鸿沟。该模型具有极高的数据效率,并能通过将动力学分解到各个关节、将系统级影响压缩为低维变量,以及从每个关节自身的动态特性中学习其演变,隐式捕捉这些综合效应,从而在不同全手交互分布间实现泛化。我们将其与一套全自动数据收集策略相结合,该策略以最少的人工干预收集多样化的现实世界交互数据。我们的完整流程展现了前所未有的泛化能力:单条策略成功旋转了具有复杂形状(如动物)、高长宽比(高达5.33)和小尺寸的挑战性物体,同时处理了多样的手腕朝向和旋转轴。全面的现实世界评估及针对复杂任务的遥操作应用验证了我们方法的有效性和鲁棒性。网站:https://meowuu7.github.io/DexNDM/
近期,大规模语言模型(LLMs)与强化学习(RL)的进展显著提升了开放域问答(QA)的性能。然而,现有模型在面对允许多个有效答案的问题时仍显吃力。标准的QA基准测试通常假设存在单一标准答案,忽视了这一现实,从而产生了不恰当的训练信号。现有处理模糊性的尝试多依赖于成本高昂的手动标注,难以扩展至如HotpotQA和MuSiQue等多跳数据集。本文提出A^2Search,一种无需标注、端到端的训练框架,旨在识别并处理模糊性。其核心是一个自动化流程,通过轨迹采样与证据验证检测模糊问题并收集替代答案。模型随后利用精心设计的AnsF1奖励进行RL优化,该奖励自然适应多答案场景。在八个开放域QA基准测试上的实验表明,A^2Search实现了新的最先进性能。仅需单次迭代,A^2Search-7B在四个多跳基准测试上的平均AnsF1@1得分达到48.4%,超越了包括规模更大的ReSearch-32B(46.2%)在内的所有强基线。深入分析进一步显示,A^2Search能够解决模糊性并在不同基准间泛化,强调接纳模糊性对于构建更可靠的QA系统至关重要。我们的代码、数据及模型权重可在https://github.com/zfj1998/A2Search获取。
强化学习已被广泛应用于提升大型语言模型的推理能力。扩展较小模型的推理极限已成为一个重要的研究焦点。然而,诸如群体相对策略优化(GRPO)等算法存在一个明显的缺陷:模型生成响应的上限完全由模型自身决定,这阻碍了从全错或全对样本中获取知识。本文提出了一种引入外部标准参考答案的方法——群体对比策略优化(GCPO)。当模型无法解决问题时,参考答案提供正确答案,引导模型朝着明确无误的更新方向前进。该方法具有两大优势:(1)通过充分利用每个样本,提高了训练效率;(2)使模型在训练过程中能够模仿参考答案的解题策略,从而增强推理的泛化能力。GCPO在多个基准数据集上取得了卓越成果,相较于基线模型实现了显著提升。我们的代码已公开于:https://github.com/AchoWu/GCPO。
高效利用大型语言模型(LLMs)对于大规模部署至关重要:若无自适应路由机制,系统要么为强大模型支付过高成本,要么因使用较弱模型而面临性能不佳的风险。为每个查询选择合适的LLM本质上是一个在线决策问题:模型各有所长,价格波动不定,且用户对准确性与成本的重视程度各异。然而,大多数路由器的训练是在线下进行的,依赖于所有候选模型的标签,这一假设在部署时被打破,因为仅能观察到所选模型的结果。我们通过BaRP(基于偏好的Bandit反馈路由方法)填补了这一空白,该方法在训练时采用与部署相同的部分反馈限制,同时支持偏好可调的推理:操作者无需重新训练即可在测试时调整性能与成本的权衡。将问题框架化为基于提示特征和用户偏好向量的上下文Bandit,我们的方法在训练期间模拟在线反馈环境,并根据每个新提示调整其路由决策,而非依赖于全信息的线下监督。全面实验表明,我们的方法始终优于强大的线下路由器至少12.46%,并超过最大LLM至少2.45%,且在面对未见任务时展现出强大的泛化能力。
当前,教导人形机器人掌握复杂技能的主流方法是将人类动作重定向为运动学参考,以训练强化学习(RL)策略。然而,现有的重定向流程常因人类与机器人之间显著的形态差异而难以应对,导致诸如脚部滑动和穿透等物理上不合理的现象。更重要的是,常见的重定向方法忽视了丰富的人-物及人-环境交互,这些交互对于表现力丰富的移动和移动操作至关重要。为此,我们提出了OmniRetarget,这是一个基于交互网格的数据生成引擎,它明确建模并保留了代理、地形及操作对象之间关键的空间与接触关系。通过最小化人类与机器人网格间的拉普拉斯变形,同时施加运动学约束,OmniRetarget生成了运动学上可行的轨迹。此外,保留任务相关的交互使得从单一演示到不同机器人形态、地形及物体配置的高效数据增强成为可能。我们通过重定向来自OMOMO、LAFAN1及我们内部动作捕捉数据集的动作,全面评估了OmniRetarget,生成了超过8小时的轨迹,这些轨迹在运动学约束满足度和接触保持方面均优于广泛使用的基线方法。如此高质量的数据使得本体感知RL策略能够在Unitree G1人形机器人上成功执行长达30秒的跑酷和移动操作技能,仅需5个奖励项和所有任务共享的简单领域随机化,无需任何学习课程设计。
为实现通用机器人操作的目标,空间泛化是最基本的能力,要求策略在不同物体分布、环境及机器人自身位置下均能稳健工作。为此,需收集大量人类示范数据,涵盖多种空间配置,以通过模仿学习训练出通用的视觉运动策略。先前研究探索了一条有前景的路径,即利用数据生成技术,从少量源示范中获取丰富的空间多样性数据。然而,多数方法面临显著的仿真与现实差距,且常局限于固定基座场景和预设相机视角等约束条件下。本文提出了一种实对实的三维数据生成框架(R2RGen),直接通过点云观测-动作对的增强来生成真实世界数据。R2RGen无需仿真器和渲染,因此高效且即插即用。具体而言,给定单一源示范,我们引入了一种细粒度场景与轨迹解析的标注机制,并提出了一种分组增强策略,以处理复杂的多物体组合及多样任务约束。此外,我们还引入了相机感知处理,确保生成数据的分布与真实世界三维传感器对齐。实验表明,R2RGen在大量实验中显著提升了数据效率,并展现出在移动操作中扩展与应用的强大潜力。
尽管大型语言模型(LLMs)在自然语言理解方面展现出卓越能力,但在检索任务中的应用却相对不足。我们提出了Search-R3这一创新框架,通过调整LLMs使其在推理过程中直接生成搜索嵌入,有效解决了这一局限。该框架充分利用LLMs的链式思维特性,使其能够通过逐步推理进行复杂的语义分析,从而生成更为高效的嵌入。我们通过三种互补机制实现这一目标:(1)监督学习阶段提升模型生成高质量嵌入的能力;(2)强化学习(RL)方法同步优化嵌入生成与推理过程;(3)专门的RL环境,有效处理不断演变的嵌入表示,无需在每次训练迭代时重新编码整个语料库。我们在多种基准测试上的广泛评估表明,Search-R3通过统一推理与嵌入生成过程,显著超越了现有方法。这种集成的后训练方式在处理需要复杂推理和高效信息检索的知识密集型任务方面,标志着一次重大进步。项目页面:https://github.com/ytgui/Search-R3
生成模型的最新进展为自动驾驶领域带来了令人振奋的新可能。特别是,视频生成模型正被探索作为可控的虚拟测试环境。与此同时,端到端(E2E)驾驶模型作为传统模块化自动驾驶系统的简化替代方案崭露头角,因其简洁性和可扩展性而广受欢迎。然而,这些技术在仿真与规划中的应用引发了重要问题。首先,尽管视频生成模型能够生成愈发逼真的视频,但这些视频能否忠实遵循指定条件,并足够真实以用于E2E自动驾驶规划器的评估?其次,鉴于数据对于理解和控制E2E规划器至关重要,我们如何能更深入地洞察其偏差,并提升其在分布外场景下的泛化能力?在本研究中,我们通过将驾驶模型与生成世界模型(Drive&Gen)相结合,来解答这些问题。我们提出了利用E2E驾驶者评估生成视频真实性的新颖统计方法。通过发挥视频生成模型的可控性,我们进行了针对性实验,以探究影响E2E规划器性能的分布差距。最后,我们展示了由视频生成模型产生的合成数据,作为真实世界数据收集的经济高效替代方案。这些合成数据有效提升了E2E模型在现有操作设计域之外的泛化能力,促进了自动驾驶服务向新操作环境的扩展。
随着新型优化器的广泛应用和模型量化成为高效部署的标准,一个关键问题随之而来:在量化存在的情况下,优化器的选择如何影响模型性能?尽管这两个领域都取得了进展,但关于优化器与量化相互作用的系统性证据仍然有限。为填补这一空白,我们研究了在量化条件下优化器选择对模型鲁棒性的影响,同时考虑了训练后量化(PTQ)和量化感知训练(QAT)。我们首先使用六种优化器训练了参数量从50M到1.5B不等的全精度模型,以探索超参数空间并建立经过良好调优的基线。随后,我们应用PTQ来评估不同优化器训练下模型性能的退化情况。我们发现,诸如最大均值比(MMR)和峰度等与异常值相关的指标,无法预测不同优化器下的PTQ性能。我们通过分析表明,这是由于MMR仅捕捉了孤立层的误差,而忽略了量化误差如何在网络中累积和传播。为了研究QAT下的性能退化,我们从零开始训练量化模型,并将其与原始精度基线进行比较。我们发现,在原始预训练设置中表现良好的优化器在QAT下可能不再最优,而使用Shampoo训练的模型显示出最低的精度退化。最后,我们推导了不同优化器下量化感知训练的缩放定律,表明Shampoo在所有测试的优化器中实现了最高的参数效率。
我们提出了稳定视频材质三维重建框架(SViM3D),该框架能够基于单张图像预测多视角一致的基于物理的渲染(PBR)材质。近期,视频扩散模型已成功应用于从单张图像高效重建三维物体。然而,反射特性仍由简单的材质模型表示,或需通过额外步骤估算,以实现重光照和可控的外观编辑。我们扩展了一种潜在视频扩散模型,使其在基于明确相机控制生成每一视角时,能同时输出空间变化的PBR参数和表面法线。这一独特配置允许利用我们的模型作为神经先验进行重光照及生成三维资产。我们为此流程引入了多种机制,以提升在这一不适定场景下的质量。我们在多个以物体为中心的数据集上展示了领先的重光照和新视角合成性能。我们的方法能泛化至多样化的输入,支持生成适用于增强现实/虚拟现实(AR/VR)、电影、游戏及其他视觉媒体的可重光照三维资产。
核聚变在寻求可靠且可持续的能源生产中扮演着关键角色。实现可行聚变能源的一个主要障碍在于理解等离子体湍流,它严重影响了等离子体的约束,这对于下一代反应堆设计至关重要。等离子体湍流由非线性回旋动力学方程所支配,该方程随时间演化一个五维分布函数。由于其高昂的计算成本,实践中常采用降阶模型来近似湍流能量传输。然而,这些模型忽略了完整五维动力学特有的非线性效应。为解决这一问题,我们提出了GyroSwin,首个可扩展的五维神经代理模型,能够模拟五维非线性回旋动力学仿真,从而捕捉降阶模型忽略的物理现象,同时提供湍流热传输的精确估计。GyroSwin(i)将层次化视觉Transformer扩展至五维,(ii)引入了交叉注意力和积分模块,用于静电势场与分布函数之间的潜在三维⇄五维交互,(iii)执行通道模式分离,灵感源自非线性物理。我们证明,GyroSwin在热通量预测上优于广泛使用的降阶数值方法,捕捉了湍流能量级联,并将完全解析的非线性回旋动力学成本降低了三个数量级,同时保持物理可验证性。GyroSwin展示了良好的扩展规律,测试参数规模高达十亿,为等离子体湍流回旋动力学仿真的可扩展神经代理模型开辟了道路。
三维编辑——即对三维资产的几何形状或外观进行局部修改的任务——在沉浸式内容创作、数字娱乐以及增强现实/虚拟现实(AR/VR)领域有着广泛的应用。然而,与二维编辑不同,由于需要跨视角一致性、结构保真度以及细粒度可控性,三维编辑仍面临诸多挑战。现有方法往往速度缓慢,易产生几何失真,或依赖于手动且精确的三维遮罩,这些遮罩不仅容易出错,而且不切实际。为应对这些挑战,我们在数据和模型两方面均取得了进展。在数据方面,我们推出了3DEditVerse,这是迄今为止最大的配对三维编辑基准,包含116,309对高质量训练样本和1,500对精心挑选的测试样本。通过姿态驱动的几何编辑与基础模型引导的外观编辑相结合的互补流程构建,3DEditVerse确保了编辑的局部性、多视角一致性及语义对齐。在模型方面,我们提出了3DEditFormer,一种保持三维结构条件的Transformer模型。通过双引导注意力机制和时间自适应门控增强图像到三维的生成过程,3DEditFormer将可编辑区域与保留结构分离,实现了无需辅助三维遮罩的精确且一致的编辑。大量实验表明,我们的框架在定量和定性上均超越了现有最先进的基线方法,为实用且可扩展的三维编辑设立了新标准。数据集与代码将公开发布。项目地址:https://www.lv-lab.org/3DEditFormer/
目标网络的使用是深度强化学习(RL)中估计价值函数的一种流行方法。虽然有效,但目标网络仍是一种折衷方案,它通过牺牲目标更新速度来保持稳定性,从而延缓了学习进程。相反,直接使用在线网络作为自举目标在直觉上颇具吸引力,尽管众所周知这会导致学习过程不稳定。在本研究中,我们旨在通过引入一种新颖的更新规则来兼顾两者优势,该规则利用目标网络与在线网络之间的最小值估计来计算目标,由此诞生了我们的方法——MINTO。通过这一简单却有效的改进,我们展示了MINTO能够通过缓解使用在线网络进行自举时可能存在的过高估计偏差,实现更快且稳定的价值函数学习。值得注意的是,MINTO能够以极小的成本无缝集成到多种基于价值和演员-评论家算法中。我们在涵盖在线与离线RL、离散与连续动作空间的多样化基准上对MINTO进行了广泛评估。在所有基准测试中,MINTO均一致提升了性能,充分证明了其广泛的适用性和有效性。
在大型视觉同质数据集上训练的通用机器人策略容易陷入捷径学习,这损害了它们在分布外(OOD)场景下的泛化能力。虽然生成式数据增强是引入多样性的常用方法,但它带来了一个微妙挑战:数据组合。简单地将真实数据与合成数据混合可能会破坏学习信号,因为这一过程往往优先考虑视觉多样性而牺牲了信息保真度。本文提出,稳健的泛化依赖于基于原则的、保真度感知的数据组合。我们引入了连贯信息保真度调优(CIFT)框架,该框架将数据组合视为一个优化问题。CIFT利用数据集特征空间几何结构作为信息保真度的实用代理,从而能够识别出训练稳定性下降的相变点,即“退相干点”。该框架包含一个生成引擎——多视角视频增强(MVAug),用于合成因果解耦的数据谱以支持这一调优过程。将CIFT应用于如pi_0和扩散策略等策略架构,可将OOD成功率提升超过54%。这些结果表明,超越单纯的数据合成,保真度感知的组合是开发稳健通用机器人的重要组成部分。