每日精选AI研究论文及翻译
我们推出HY-World 2.0——一个多模态世界模型框架,该框架在我们先前项目HY-World 1.0基础上实现了重大升级。HY-World 2.0支持包括文本提示、单视角图像、多视角图像和视频在内的多样化输入模态,并能生成3D世界表征。当输入文本或单视角图像时,该模型可执行世界生成任务,合成具有高保真度、可导航的3D高斯泼溅(3DGS)场景。这一过程通过四阶段方法实现:a) 使用HY-Pano 2.0进行全景生成,b) 通过WorldNav进行轨迹规划,c) 采用WorldStereo 2.0进行世界扩展,d) 利用WorldMirror 2.0完成世界合成。具体而言,我们引入了关键创新技术以提升全景保真度、实现3D场景理解与规划,并对基于关键帧的视图生成模型WorldStereo进行了具有一致性记忆的升级。同时,我们通过优化模型架构与学习策略,对通用3D预测的前馈模型WorldMirror进行升级,使其能够从多视角图像或视频中完成世界重建。此外,我们还推出了WorldLens——一个高性能3DGS渲染平台,其采用灵活的引擎无关架构,具备自动图像光照(IBL)、高效碰撞检测及训练-渲染协同设计等特性,支持带角色交互的3D世界探索。大量实验表明,HY-World 2.0在开源方案中的多个基准测试上达到了最先进性能,其效果可与闭源模型Marble相媲美。我们公开了全部模型权重、代码及技术细节,以促进可复现性并支持3D世界模型的进一步研究。
深度研究智能体(DRA)旨在解决涉及规划、检索、多模态理解和报告生成的复杂长期研究任务,但由于动态网络环境和模糊任务定义,其评估仍面临挑战。我们提出DR^{3}-Eval基准,这是一个用于评估多模态多文件报告生成能力的真实可复现基准。该基准基于真实用户提供的材料构建,并为每项任务配备静态研究沙箱语料库,在保持完全可验证性的同时模拟开放网络的复杂性,包含支持性文档、干扰项及噪声数据。此外,我们引入多维度评估框架,从信息召回率、事实准确性、引用覆盖率、指令遵循度和深度质量五个维度进行量化评估,并验证其与人类判断的一致性。基于多款前沿语言模型构建的多智能体系统DR^{3}-Agent实验表明,DR^{3}-Eval具有高度挑战性,能有效暴露检索鲁棒性和幻觉控制方面的关键缺陷。我们的代码与数据已公开。
一种广泛采用的模型增强策略是利用更强模型生成的合成数据进行监督微调(SFT)。然而对于像Qwen3-8B这样的新兴推理模型,这种方法往往无法提升推理能力,甚至可能导致性能大幅下降。本研究发现,教师模型生成数据与学生模型分布之间的显著风格差异是影响SFT效果的主要因素。为弥合这一差距,我们提出师生协作数据合成框架(TESSY),通过交替调用教师模型和学生模型来分别生成风格性标记与非风格性标记。该方法生成的合成序列既能继承教师模型的高级推理能力,又能保持与学生模型分布的风格一致性。在代码生成实验中,以GPT-OSS-120B作为教师模型时,使用教师生成数据对Qwen3-8B进行微调会导致LiveCodeBench-Pro和OJBench上的性能分别下降3.25%和10.02%,而TESSY框架则实现了11.25%和6.68%的性能提升。
高级别自动驾驶需要运动规划器能够建模多模态未来不确定性,同时在闭环交互中保持稳健性。尽管基于扩散模型的规划器能有效处理复杂轨迹分布,但在纯模仿学习训练下常面临随机性不稳定问题,且缺乏纠正性负反馈。为解决这些问题,我们提出RAD-2——一种面向闭环规划的生成器-判别器统一框架。具体而言,扩散模型生成器负责生成多样化轨迹候选,而经过强化学习优化的判别器则根据长期驾驶质量对这些候选轨迹进行重排序。这种解耦设计避免了将稀疏标量奖励直接应用于全高维轨迹空间,从而提升优化稳定性。为增强强化学习效果,我们提出时序一致性群组相对策略优化,利用时序连贯性缓解信用分配问题。此外,我们引入同策略生成器优化技术,将闭环反馈转化为结构化纵向优化信号,逐步将生成器导向高奖励轨迹流形。为支持高效大规模训练,我们开发了BEV-Warp高通量仿真环境,通过空间变换直接在鸟瞰图特征空间进行闭环评估。实验表明,RAD-2相较于强扩散基线碰撞率降低56%。实路部署进一步验证了该系统在复杂城市交通中具有更高的感知安全性和行驶平顺度。
尽管经过安全对齐,大型语言模型仍表现出脆性拒绝行为,这种防御机制可能因简单的语言变换而被绕过。时态越狱现象表明,当有害请求被改写为过去时态时,原本拒绝的模型往往会转为顺从,这揭示了当前对齐方法存在关键泛化缺陷,其内在机制尚不明确。本研究提出激活缩放防护框架,这一基于机制解析的精准框架能针对性修复此类漏洞。首先通过电路分析定位与时态转换攻击等特定越狱行为存在因果关联的注意力头;其次训练精确的通道级缩放向量,重新校准时态敏感头的激活值;最后将其融入"预防性微调",迫使模型学习更稳健的拒绝机制。在四个大型语言模型上的实验表明,该框架能有效降低目标越狱攻击成功率,同时保持通用能力并最小化过度拒绝,实现了安全性与实用性的帕累托最优平衡。基于机制分析,我们发现对抗性后缀会抑制拒绝中介方向的信号传播。本研究进一步证明,通过深入理解模型内部机制,可开发出实用高效的行为调控方法,为构建更可靠、可解释的AI安全体系指明方向。
尽管端到端的视觉-语言-动作(VLA)模型为机器人操作提供了前景广阔的范式,但在狭窄的控制数据上对其进行微调往往会损害其从基础视觉-语言模型(VLM)继承的深层推理能力。为解决这一根本性权衡,我们提出HiVLA——一种以视觉定位为核心的分层框架,显式解耦高层语义规划与底层运动控制。在高层部分,VLM规划器首先执行任务分解与视觉定位,生成包含子任务指令和精确目标边界框的结构化方案。随后,为将方案转化为物理动作,我们在底层引入配备新型级联交叉注意力机制的流匹配扩散Transformer(DiT)动作专家。该设计依次融合全局上下文、高分辨率目标中心裁剪区域及技能语义,使DiT能专注于鲁棒执行。我们的解耦架构既保留了VLM的零样本推理能力,又支持两个组件的独立优化。在仿真与真实场景中的大量实验表明,HiVLA显著优于最先进的端到端基线模型,尤其在长周期技能组合和杂乱场景中小物体的精细操作方面表现卓越。
高效的空间基元分配是三维高斯泼溅技术的基础,它直接决定了表示紧凑性、重建速度与渲染保真度之间的协同关系。现有解决方案无论基于迭代优化还是前向推理,都因依赖缺乏全局场景认知的局部启发式分配策略,而难以兼顾这些目标。具体而言,当前前向方法大多采用像素对齐或体素对齐策略,通过将像素反投影为密集的视角对齐基元,导致三维资产中存在冗余。随着输入视角的增加,表示规模会持续膨胀,全局一致性也变得脆弱。为此,我们提出GlobalSplat框架,其核心设计理念是"先对齐,后解码"。该方法通过学得的紧凑全局潜在场景表示,在解码任何显式三维几何前即可编码多视角输入并解析跨视角对应关系。关键创新在于,这种范式无需依赖预训练的像素预测主干网络或复用稠密基线的潜在特征,就能实现紧凑且全局一致的重建。通过采用由粗到精的训练策略逐步提升解码能力,GlobalSplat从原理上避免了表示膨胀。在RealEstate10K和ACID数据集上,我们的模型仅需1.6万个高斯基元即可实现具有竞争力的新视角合成效果,显著少于稠密流水线所需数量,最终获得仅4MB的轻量化存储占用。此外,GlobalSplat的推理速度显著优于基线方法,单次前向传播耗时低于78毫秒。项目页面详见:https://r-itk.github.io/globalsplat/
检索增强生成(RAG)通过引入外部视觉知识扩展了大型视觉语言模型(LVLM)的能力。然而,现有视觉RAG系统通常依赖通用检索信号,忽略了复杂推理所需的细粒度视觉语义。为突破这一局限,我们提出UniDoc-RL——一个统一的强化学习框架,使LVLM智能体能够协同执行检索、重排序、主动视觉感知与推理。该框架将视觉信息获取建模为具有分层动作空间的序列决策问题:从粗粒度的文档检索逐步细化到细粒度的图像选择与主动区域裁剪,从而抑制无关内容并聚焦信息密集区域。为实现端到端高效训练,我们设计了密集多奖励机制,为每个动作提供任务感知监督。基于群组相对策略优化(GRPO),UniDoc-RL无需依赖独立的价值网络即可实现多目标行为对齐。为支撑该训练范式,我们构建了包含细粒度动作标注的高质量推理轨迹数据集。在三个基准测试上的实验表明,UniDoc-RL持续超越现有最优基线模型,相较基于强化学习的先前方法最高提升17.7%。
视觉语言模型(VLMs)在跨模态理解方面展现出卓越能力,但其大规模特性给资源受限场景下的部署带来严峻挑战。知识蒸馏(KD)提供了一种在不增加模型规模或数据需求的前提下提升模型性能的有效途径,从而显著提高部署效率。然而,将KD应用于VLMs时面临模态特异性监督的挑战:尽管VLM中的多模态知识在语言空间内融合,现有方法仍对各模态进行独立监督,未能显式解决多模态对齐问题,导致跨模态知识传递不一致。为此,我们提出Switch-KD——一种视觉切换蒸馏框架,将视觉-语言知识统一迁移至共享的文本概率空间。该框架包含两个核心组件:(1)视觉切换蒸馏机制,通过将学生模型的视觉输出切换至教师模型的语言通路,构建跨模态概率参考以实现隐式视觉知识迁移;(2)动态双向对数差异(DBiLD)损失函数,通过双向监督自适应对齐信息丰富的概率区域,同时保持师生模型的分布结构。在Switch-KD指导下,0.5B参数的TinyLLaVA无需架构改动即可从其3B教师模型中有效蒸馏丰富多模态知识,在10个多模态基准测试中平均提升3.6个性能点。
Claude Code是一种代理式编码工具,可代表用户执行shell命令、编辑文件及调用外部服务。本研究通过分析其公开的TypeScript源代码,并与独立开源AI代理系统OpenClaw进行对比,系统阐述了其整体架构。OpenClaw作为另一种部署情境下的多通道个人助理网关,以不同方式回应了诸多相同的设计问题。我们识别出驱动该架构的五大人本价值观、哲学理念与需求(人类决策权威、安全与保障、可靠执行、能力增强及情境适应性),并将其通过十三项设计原则映射至具体实现方案。该系统核心采用简单的循环结构:调用模型、运行工具、循环执行。但大部分代码实现在循环外围的支撑系统中:包含七种模式与基于机器学习分类器的权限系统、五层压缩流程的上下文管理机制、四种扩展机制(MCP、插件、技能与钩子)、具备工作树隔离的子代理委派机制,以及面向追加的会话存储。与多通道个人助理网关OpenClaw的对比表明,当部署情境改变时,相同的基础设计问题会催生不同的架构解决方案:从基于动作的安全分类转向边界级访问控制,从单一CLI循环演进为网关控制平面内的嵌入式运行时,从上下文窗口扩展发展为网关级能力注册。最后我们基于近期实证研究、架构设计与政策文献,为未来代理系统提出六大开放设计方向。
每次调用LLM分类终端都会产生已保留在生产日志中的标注输入-输出对。这些数据对构成了一个免费且持续增长的训练集:基于此训练的轻量级替代模型能以近乎零边际推理成本承担未来大量请求。核心问题在于何时部署替代模型才足够可靠、其处理与转交任务的边界如何划分,以及该边界如何随数据积累动态演化。 我们推出TRACER(基于追踪的自适应成本效益路由系统),这一开源系统利用LLM自身生产轨迹训练机器学习替代模型,并通过一致性校验门控部署策略:仅当替代模型与LLM的预测一致率超过用户设定阈值α时才激活使用。为实现路由边界的透明化,TRACER生成可解释性分析报告,清晰展示替代模型的有效处理范围、性能瓶颈区域及转交决策依据。 在77类意图识别基准测试中(以Sonnet 4.6作为教师模型),TRACER实现的替代模型覆盖率可达83-100%(具体取决于质量目标α);在150类基准测试中,替代模型可完全取代教师模型。对于自然语言推理任务,系统通过一致性校验门正确拒绝部署,因为嵌入表示无法支撑可靠的决策分离。本系统已作为开源软件发布。
精准的未来视频预测需兼顾高视觉保真度与连贯的场景语义,这在自动驾驶等复杂动态环境中尤为关键。我们提出Re2Pix——一种分层视频预测框架,将预测任务分解为两个阶段:语义表征预测与表征引导的视觉合成。该方法不直接预测RGB帧,而是先在冻结视觉基础模型的特征空间中预测未来场景结构,再以这些预测表征为条件驱动隐空间扩散模型生成逼真帧序列。这种分解使模型能分别聚焦于场景动态学习和外观生成。核心挑战在于训练时可用真实表征与推理时预测表征之间的失配问题。为此,我们引入嵌套丢弃与混合监督两种条件策略,提升模型对不完美自回归预测的鲁棒性。在挑战性驾驶基准测试上的实验表明,相较于强扩散基线,这种语义优先的设计能显著提升时序语义一致性、感知质量及训练效率。实现代码已发布于https://github.com/Sta8is/Re2Pix。
大型语言模型(LLMs)高度依赖键值缓存(KV Caching)来降低推理延迟。然而,标准KV缓存具有上下文依赖性:若要在新语境中复用已缓存文档,需重新计算KV状态以适应注意力分布的动态变化。现有解决方案如CacheBlend、EPIC和SAM-KV通过选择性地重计算部分词元来缓解该问题,但仍会产生不可忽略的计算开销(FLOPs)并增加首词元延迟(TTFT)。本文提出KV Packet——一种免重计算的缓存复用框架,该框架将缓存文档视为不可变的"数据包",并为其封装轻量级可训练的软标记适配器。这些适配器通过自监督蒸馏训练以弥合上下文断层。基于Llama-3.1和Qwen2.5的实验表明,所提KV Packet方法在保持与全重计算基线相当的F1分数同时,实现了接近零的FLOPs消耗,且TTFT低于基于重计算的基线方法。
本文聚焦于流匹配模型与人类偏好的对齐研究。一种直接通过流匹配可微生成过程反向传播奖励梯度进行微调的方法前景广阔,但长轨迹反向传播会导致内存开销激增和梯度爆炸。因此,直接梯度法难以更新对最终图像全局结构起决定性作用的早期生成步骤。针对该问题,我们提出LeapAlign微调方法,通过缩短反向传播路径降低计算成本,实现奖励信号向早期生成步骤的直接梯度传递。具体而言,我们设计包含两次跳跃的缩短轨迹:每个跳跃跨越多个ODE采样步骤,实现单步预测未来潜在变量。通过随机化跳跃起止时间步,LeapAlign可在任意生成步骤实现高效稳定的模型更新。为优化缩短轨迹的利用效率,我们为与长生成路径一致性更高的轨迹分配更高训练权重。为进一步增强梯度稳定性,我们降低大幅值梯度项的权重(而非如既往研究直接剔除)。在Flux模型微调实验中,LeapAlign在多项指标上持续优于最先进的基于GRPO的方法和直接梯度法,实现了更优的图像质量与图文对齐度。
人-物交互建模旨在捕捉人类对物体的作用关系,通常以<人物,动作,物体>三元组形式表示。现有方法分为两个独立分支:基于结构化三元组和布局的HOI生成方法虽能合成场景,但难以整合混合条件(如HOI与纯物体实体);基于文本的HOI编辑方法虽能修改交互,却存在姿势与物理接触耦合、多交互扩展困难等局限。我们提出OneHOI——一个统一的扩散Transformer框架,通过共享的结构化交互表征将HOI生成与编辑整合至单一条件去噪过程。其核心关系扩散Transformer通过角色与实例感知的HOI令牌、基于布局的空间动作定位、强化交互拓扑的结构化HOI注意力机制,以及解耦多HOI场景的HOI旋转位置编码,实现对动词中介关系的建模。基于HOI-Edit-44K数据集联合HOI与物体中心数据集进行模态丢弃训练,OneHOI支持布局引导、无布局、任意掩码和混合条件控制,在HOI生成与编辑任务上均达到最先进性能。代码详见https://jiuntian.github.io/OneHOI/。
多模态大语言模型(MLLMs)在众多视觉语言任务中表现优异,但在需要细粒度视觉推理的视觉中心型问题上往往表现不佳。最新研究表明,这一局限并非源于视觉表征能力薄弱,而是由于指令微调过程中未能充分利用视觉信息——许多任务仅凭语言先验即可部分解决。我们提出一种轻量级解决方案,通过将少量以自然语言指令表达的视觉基础自监督任务融入视觉指令微调过程。通过将旋转预测、颜色匹配、跨视角对应等经典自监督预训练任务重构为“图像-指令-响应”三元组,我们引入了必须依赖视觉证据才能解决的监督信号。该方法无需人工标注、无需调整模型架构、无需新增训练阶段。在多种模型架构、训练机制和基准测试中,仅需注入少量(3%-10%)此类视觉基础指令,即可持续提升视觉中心型评估任务的性能。我们的研究证明,通过对训练数据分布进行简单调整,采用视觉基础自监督任务的指令微调可有效增强MLLMs的视觉推理能力。代码地址:https://github.com/sirkosophia/V-GIFT
强化学习(RL)已成为提升大语言模型(LLMs)推理能力的关键驱动力。尽管近期研究多聚焦于奖励工程或数据合成,但鲜有工作利用模型内在的表征特性来指导训练过程。本文首先观察到模型在处理长上下文时,查询向量与键向量中存在高幅值激活现象。受模型量化(此类高幅值激活被证明具有关键作用)的启发,并结合长上下文推理本身具有稀疏结构的洞见,我们假设这些权重是驱动模型有效优化的核心要素。基于此,我们提出LongAct策略——将均匀参数更新转变为显著性引导的稀疏更新。通过仅选择性更新与重要激活相关的权重,LongAct在LongBench v2上实现了约8%的性能提升,并在RULER基准测试中表现出更强的泛化能力。此外,本方法展现出显著的普适性,在GRPO、DAPO等多种RL算法中均能持续提升性能。大量消融实验表明,聚焦这些显著性特征是释放长上下文潜力的关键。
生成模型的文本驱动反演是操控2D或3D内容的核心范式,催生了基于文本的编辑、风格迁移或逆问题等诸多应用。然而,该方法依赖于生成模型对自然语言提示保持敏感的前提。我们发现,对于最先进的原生文本到3D生成模型,这一前提往往并不成立。我们识别出一种关键失效模式:生成轨迹会被吸入潜在“沉陷陷阱”——即模型对提示修改变得不敏感的隐空间区域。在此状态下,输入文本的更改无法有效改变内部表征,从而导致输出几何形态保持不变。关键的是,我们观察到这并非模型几何表达能力的局限:同一生成模型本可生成丰富多样的形状,但如实验所示,它们会对分布外文本引导失去响应。通过分析生成模型的采样轨迹,我们发现借助模型的无条件生成先验仍可表征和生成复杂几何形态。由此我们提出了更鲁棒的文本驱动3D形状编辑框架,通过解耦模型的几何表征能力与语言敏感性来规避潜在沉陷。该方法突破了当前3D流程的局限性,实现了对分布外3D形状的高保真语义操控。项目页面:https://daidedou.sorpi.fr/publication/beyondprompts
视觉语言模型(VLM)显著推动了人工智能在复杂医学影像(如计算机断层扫描CT)解读与报告生成方面的发展。然而,现有方法大多将临床医生置于最终输出的被动观察者角色,未能提供可解释的推理路径供其审查、验证或修正。为此,我们推出RadAgent——一个运用工具的人工智能代理,通过可解释的渐进式流程生成CT报告。每份生成报告均附带完整可追溯的中间决策与工具交互路径,使临床医生能够核查报告结论的推导过程。实验表明,RadAgent在胸部CT报告生成任务中较其三维视觉语言模型对照系统CT-Chat实现三维度提升:临床准确性方面,宏观F1分数提升6.0分(相对提升36.4%),微观F1分数提升5.4分(相对提升19.6%);对抗条件下的鲁棒性提升24.7分(相对提升41.9%);此外,RadAgent在事实一致性维度达到37.0%的指标,而该能力在其三维视觉语言模型对照系统中完全缺失。通过将胸部CT影像解读构建为显式、工具增强的迭代推理轨迹,RadAgent使放射学领域向透明可靠的人工智能迈出关键一步。
跨分词器蒸馏(CTD)作为解决师生语言模型使用不同分词器时知识迁移的课题,目前仍属未完全破解的难题。现有方法依赖启发式策略对齐不匹配的词表,引入了显著复杂性。本文提出名为字节级蒸馏(BLD)的简洁有效基线方案,通过在不同分词器间构建通用接口——字节层面——实现CTD。具体而言,我们将教师的输出分布转换为字节级概率,为学生模型附加轻量级字节级解码头,通过这一共享的字节接口进行蒸馏。尽管方案简单,但在涵盖10亿至80亿参数模型的一系列蒸馏任务中,BLD与复杂得多的CTD方法相比表现相当,并在多个基准测试中实现超越。我们的研究表明字节层面是跨分词器知识传递的天然共通层,同时亦揭示所有任务和基准测试中均实现持续改进仍具挑战,这凸显CTD仍是待解之谜。
检索增强生成(RAG)技术将大语言模型的响应建立在外部证据基础上,但将模型视为搜索结果的被动消费者:它无法感知语料库的组织方式及尚未检索的内容,限制了其回溯或整合零散证据的能力。我们提出Corpus2Skill方法,通过离线将文档语料库提炼为分层技能目录,使大语言模型智能体在运行时能自主导航该目录。该编译流程迭代式聚类文档,逐层级生成大语言模型撰写的摘要,并将结果物化为可导航的技能文件树。运行时,智能体可纵览语料库全貌,通过逐级细化的摘要深入主题分支,最终按ID检索完整文档。由于层级结构显式可见,智能体能够推理检索路径、从无效路径回溯并跨分支整合证据。在企业客户支持RAG基准测试WixQA上,Corpus2Skill在各项质量指标上均优于稠密检索、RAPTOR及智能RAG基线方法。
AI编程智能体面临一个悖论:它们拥有海量参数化知识,却无法记住一小时前的对话。现有记忆系统将文本存储在向量数据库中,采用单通道检索机制,核心运算依赖云端大语言模型,且完全缺失人类高效记忆的认知处理过程。 我们推出SuperLocalMemory V3.3("活体大脑")——首个实现完整认知记忆分类体系并具备数学生命周期动力学的本地优先智能体记忆系统。在V3.2信息几何基础(arXiv:2603.14588)之上,我们提出五大创新:(1) Fisher-Rao量化感知距离(FRQAD)——高斯统计流形上的新型度量标准,在优选高保真嵌入而非量化嵌入时实现100%精确度(余弦相似度仅为85.6%),属全球首创;(2) 艾宾浩斯自适应遗忘算法——结合生命周期感知量化的本地智能体记忆首个数理遗忘曲线,鉴别能力提升6.7倍;(3) 七通道认知检索架构,涵盖语义、关键词、实体图谱、时序、扩散激活、巩固记忆及霍普菲尔德联想通道,在零LLM的A模式下LoCoMo基准达到70.4%;(4) 通过软提示实现长期隐性记忆的参数化方案;(5) 零摩擦自动认知管道,实现完整记忆生命周期的自动化管理。 在LoCoMo基准测试中,V3.3的A模式(零LLM)达到70.4%,多跳推理提升23.8个百分点,对抗性测试提升12.7个百分点。V3.2曾实现A模式74.8%和C模式87.7%的成绩,4.4个百分点的差距体现了主动架构权衡。SLM V3.3采用Elastic License 2.0开源协议,纯CPU运行,月下载量超5000次。
人工智能生成内容(AIGC)工具的快速发展使得图像、视频及可视化素材能够按需生成用于网页设计,为现代UI/UX提供了一种灵活且日益普及的创作范式。然而,直接将此类工具集成到自动化网页生成中常因元素孤立生成而导致风格不一致和全局协调性差的问题。我们提出MM-WebAgent——一种用于多模态网页生成的分层智能体框架,通过分层规划与迭代自反思协调基于AIGC的元素生成。该框架联合优化全局布局、局部多模态内容及其整合,生成具有连贯性与视觉一致性的网页。我们进一步构建了多模态网页生成基准测试集及多层次评估方案以进行系统化评估。实验表明,MM-WebAgent在代码生成和基于智能体的基线方法中表现优异,尤其在多模态元素生成与整合方面优势显著。代码与数据详见:https://aka.ms/mm-webagent。
近期,大语言模型作为加速科学发现的重要途径受到广泛关注。然而在生物学等开放型科学领域的应用中,其发展仍受限于缺乏事实依据与可操作的解释机制。为此,我们提出了一种虚拟细胞的结构化解释范式,将生物推理过程表征为机制作用图,从而实现系统化的验证与证伪。基于此,我们开发出VCR-Agent多智能体框架,该框架通过整合生物基础知识检索与基于验证器的过滤机制,实现自动化生成并验证机理推理。利用该框架,我们发布了VC-TRACES数据集,其中包含从Tahoe-100M图谱中提取的经过验证的机制解释。实验表明,采用这些解释进行训练能有效提升事实准确性,并为下游基因表达预测任务提供更优质的学习信号。这些成果凸显了通过多智能体协同与严格验证实现可靠机理推理对虚拟细胞研究的关键意义。
我们研究行为正则化强化学习(RL),其中对参考分布(离线RL中的数据集或LLM RL微调中的基模型)的正则化对于防止因分布外错误外推导致的价值过优化至关重要。现有方法要么依赖难以扩展至大型生成模型的重新参数化策略梯度,要么采用在尝试超越行为支持集时可能过于保守的拒绝采样。本文提出价值梯度流(VGF),一种可扩展的行为正则化RL新范式。VGF将行为正则化RL转化为将参考分布映射至价值诱导最优策略分布的最优传输问题。我们通过离散梯度流求解该传输问题,其中价值梯度引导从参考分布初始化的粒子流动。理论分析表明VGF通过控制传输预算实现隐式正则化。该方法在保持表达力和灵活性的同时消除了显式策略参数化需求,从而可通过调整传输预算实现自适应测试时缩放。大量实验表明,VGF显著优于现有方法,在离线RL基准(D4RL、OGBench)和LLM RL任务中达到最先进水平。代码与运行结果详见https://ryanxhr.github.io/vgf。
在线增量学习中,数据持续到达且存在显著分布偏移,这带来了重大挑战——因为先前样本在学习新任务时重放价值有限。现有研究通常依赖单一自适应质心或多个固定质心在隐空间表征类别,但面对固有多模态特性的类别数据流时,此类方法难以实现质心的持续更新。为此,我们提出基于最优传输理论的在线混合模型学习框架(MMOT),其质心会随新数据增量演化。该方法具备两大优势:(i)能更精确刻画复杂数据流特性;(ii)通过MMOT推导的质心可在推理阶段提升未见样本的类别相似度估计精度。此外,为增强表征学习并缓解灾难性遗忘,我们设计了动态保持策略,该策略能约束隐空间并长期维持类别可分性。在基准数据集上的实验验证了所提方法的卓越效能。
在数学推理任务中,对多个大语言模型尝试进行多数投票虽能提升效果,但误差相关性限制了有效样本量。一个自然的解决方案是为不同投票者分配不同的推理策略。我们通过Diverse Prompt Mixer方法在AIMO 3竞赛中验证:使用3个模型、23+组实验、50道IMO级别试题、单张H100 80GB显卡及5小时限时。所有提示层面的干预均告失败——高温采样已能有效降低误差相关性,而弱化策略对准确率的负面影响远超其降低相关性的作用。在同等N=8样本量及所有优化尝试中,模型能力差距达8个百分点的前提下,模型性能始终起主导作用。最佳多数投票得分(42/50)与pass@20(约45.5)之间的差距源于选择机制损失而非提示损失,基于验证器的选择器可弥补此差距,而提示工程无法实现。
我们提出三相变压器(3PT),一种基于标准SwiGLU+RMSNorm+RoPE+GQA架构的解码器专用Transformer残差流结构先验。该模型将隐藏向量划分为N个等尺寸的循环通道,每个通道通过相位保持算子维护:包括通道级RMSNorm、注意力与前馈网络间实施2D吉文斯旋转(每个通道旋转角度为θ+i*(2π/N)),以及令GQA头数与通道划分对齐的约束机制。该架构实现了扰动与重整之间的自稳定平衡,而非简单附加模块。通道划分天然形成与各通道正交的一维直流子空间,我们向其注入加布里埃尔号角函数r(p)=1/(p+1)作为绝对位置侧通道,与RoPE的相对位置旋转实现正交组合。经典N=3配置借鉴平衡三相交流电隐喻,三个相位差120度的正弦波叠加为零且无任何反相关对。在WikiText-103的1.23亿参数规模下,3PT以仅增加1,536参数(总量0.00124%)的代价,相比纯RoPE基线困惑度降低7.20%(每字节比特数下降2.62%),收敛步数加速1.93倍(实际耗时加速1.64倍)。N表现为参数共享调节钮而非唯一最优解:在550万参数规模下,对{1,2,3,4,6,8,12}的N值扫描显示N=1最优;而在1.23亿参数规模下,三次随机种子实验表明N=3与N=1统计无差异。核心机制包括通道划分残差流、块间旋转、相位归一化及号角直流注入。我们重点阐释:(a)几何结构的无显式约束自稳定现象,此为神经网络守恒律框架的新实例;(b)12层深度下旋转角漂移的U形分布特征;(c)与RoPE、注意力及前馈网络的正交组合特性。
基于评分标准的增强验证通过明确的评估准则指导奖励模型,相比单一模型验证能产生更可靠的判断。然而现有方法大多依赖昂贵的评分标注,限制了可扩展性。我们发现评分标准生成存在协作失效风险:低质量评分标准会误导而非帮助奖励模型。受合作性交流原则启发,我们提出协同批判式奖励建模框架(C²),通过让奖励模型与仅基于二元偏好训练的评分生成器开展批判性协作,显著提升判断质量。在C²框架中,我们通过测量每个评分标准使奖励模型趋近或偏离正确偏好的程度,构建具有误导性与帮助性的对比评分对。利用这些对比对,我们训练协同式评分生成器提出有效准则,并训练批判性验证器在决策前评估评分标准的有效性——推理阶段仅采纳被判定为有益的评分标准。C²在相同二元偏好数据上训练的推理奖励模型中表现优异,在RM-Bench上提升达6.5分,在AlpacaEval 2.0长度控制胜率上提升6.0分。无需外部评分标注,C²使80亿参数奖励模型达到了4倍参数量模型使用评分标准时的性能。本研究证明,在评分标准增强验证中激发深度协作,能以可扩展方式使奖励模型变得更可信赖。