每日精选AI研究论文及翻译
我们提出原生并行推理器(NPR),一种无需教师指导的框架,使大语言模型能够自我演化出真正的并行推理能力。该框架通过三项关键创新将模型从序列仿真正向原生并行认知转变:1)自蒸馏渐进式训练范式,在无外部监督条件下实现从"冷启动"格式发现到严格拓扑约束的过渡;2)新颖的并行感知策略优化算法,直接在执行图中优化分支策略,让模型通过试错学习自适应分解;3)稳健的NPR引擎,重构SGLang的内存管理与流程控制,实现稳定的大规模并行强化学习训练。在八大推理基准测试中,基于Qwen3-4B训练的NPR实现了最高24.5%的性能提升和4.6倍的推理加速。与常退化为自回归解码的基线方法不同,NPR展现出100%的真实并行执行能力,为自我演化、高效可扩展的智能体推理树立了新标准。
旋转位置编码(RoPE)已成为大语言模型中序列顺序编码的标准方法,其通过对查询向量和键向量在复平面上施加旋转来实现。然而标准实现仅使用复数点积的实部计算注意力分数,这种简化丢弃了包含宝贵相位信息的虚部,导致可能丢失对长上下文依赖建模至关重要的关系细节。本文提出一种扩展方法,重新整合被丢弃的虚部信息。我们的方法利用完整复数表示构建双组分注意力分数,从理论和实验两方面证明该方案能通过保留更多位置信息来增强长上下文依赖建模能力。此外,在系列长上下文语言建模基准上的评估表明,我们的方法相较标准RoPE能持续提升性能,且随着上下文长度增加,改进效果愈加显著。代码已开源于https://github.com/OpenMOSS/rope_pp。
现有视频编辑方法面临一个关键权衡:专家模型精度高但依赖任务特定先验(如遮罩),难以统一;反之,统一的时序上下文学习模型无需遮罩,但缺乏显式空间线索,导致指令-区域映射模糊与定位不精准。为解决这一矛盾,我们受思维链推理启发,提出VideoCoF——一种新颖的帧间推理链方法。VideoCoF通过强制视频扩散模型在生成目标视频令牌前先预测推理令牌(编辑区域潜变量),构建"先观察、再推理、后编辑"的流程。这种显式推理步骤既无需用户提供遮罩,又能实现精准的指令-区域对齐与细粒度视频编辑。此外,我们提出RoPE对齐策略,利用推理令牌确保运动对齐,并实现超越训练时长的长度外推。实验表明,仅需5万对视频的最小数据成本,VideoCoF即在VideoCoF-Bench上达到领先性能,验证了方法的效率与有效性。代码、权重及数据详见https://github.com/knightyxp/VideoCoF。
体素艺术是一种广泛应用于游戏和数字媒体的独特风格化形式,然而从三维网格自动生成体素艺术仍面临几何抽象、语义保持和离散色彩一致性等多重需求的挑战。现有方法要么过度简化几何结构,要么难以实现体素艺术所要求的像素级精准、调色板约束的美学效果。我们提出Voxify3D——一个连接三维网格优化与二维像素艺术监督的可微分两阶段框架。我们的核心创新在于三个组件的协同整合:(1)通过正交像素艺术监督消除透视畸变,实现体素-像素精准对齐;(2)基于图像块的CLIP对齐技术,在离散化过程中保持跨层级语义;(3)支持可控调色板策略的调色板约束型Gumbel-Softmax量化方法,实现离散色彩空间的可微分优化。该框架解决了三大核心难题:极端离散化下的语义保持、通过体渲染实现的像素艺术美学、端到端的离散优化。实验表明,本方法在多样化角色模型和可控抽象度(2-8种颜色,20倍-50倍分辨率)条件下均表现出卓越性能(CLIP-IQA评分37.12,用户偏好率77.90%)。项目页面:https://yichuanh.github.io/Voxify-3D/
参考到视频(R2V)生成技术旨在根据文本提示合成视频,同时保持参考图像中的主体身份特征。然而,当前R2V方法受限于对显式参考图像-视频-文本三元组的依赖,这类数据的构建成本极高且难以规模化。我们通过引入Saber框架突破这一瓶颈,该可扩展的零样本框架无需显式R2V数据支持。仅基于视频-文本对进行训练的Saber采用掩码训练策略和定制化的基于注意力的模型设计,以学习身份一致且参考感知的表征。我们还整合了掩码增强技术来缓解参考到视频生成中常见的复制粘贴伪影问题。此外,Saber在多样化参考数量下展现出卓越的泛化能力,并在OpenS2V-Eval基准测试中超越了依赖R2V数据训练的方法,实现了更优的性能表现。
基于大语言模型的多智能体系统调试难度较高,因为故障往往源于长链条的分支式交互轨迹。当前主流做法是利用大语言模型进行基于日志的故障定位,将错误归因于特定智能体及操作步骤。然而该范式存在两大局限:(i)纯日志调试缺乏验证环节,仅能生成未经检验的假设;(ii)单步骤或单智能体归因往往定义不当,因为我们发现存在多种独立干预措施均可修复失败任务。针对首个局限,我们提出干预式调试框架DoVer,通过定向干预(如编辑消息、调整计划)将假设生成与主动验证相结合。对于第二个局限,我们不再聚焦于归因准确性评估,转而关注系统能否解决故障或推动任务取得可量化的进展,这体现了更注重结果的调试视角。在Magnetic-One智能体框架中,基于GAIA和AssistantBench数据集的实验表明:DoVer将18-28%的失败案例转化为成功,实现最高16%的里程碑进展,并能验证或推翻30-60%的故障假设。在GSMPlus数据集和AG2智能体框架的跨场景测试中,DoVer成功修复了49%的失败案例。这些结果证明干预是提升智能体系统可靠性的有效机制,为基于大语言模型的多智能体系统开辟了更稳健、可扩展的调试方法路径。项目网站与代码详见:https://aka.ms/DoVer。
我们研究面向交互式AR应用的第一人称视频指令引导编辑技术。当前AI视频编辑器虽在第三人称视频上表现良好,但第一人称视角存在独特挑战——包括快速自身运动和频繁的手物交互——这造成了显著的领域差异。此外,现有离线编辑流程存在高延迟问题,限制了实时交互能力。针对这些问题,我们提出了一套完整的第一人称视频编辑生态系统。首先,我们构建了EgoEditData——一个专为第一人称编辑场景精心设计并手动标注的数据集,其特点在于包含丰富的手物交互且显式保留手部信息。其次,我们开发了EgoEdit支持实时流式推理的第一人称视频编辑器,可在单GPU上运行。最后,我们推出EgoEditBench评估体系,重点考察指令遵循度、手部与交互保持能力,以及自身运动下的时序稳定性。在第一人称和通用编辑任务中,EgoEdit均能以交互级延迟生成时序稳定、忠实遵循指令的结果。它在现有方法表现不佳的第一人称编辑基准上取得显著提升,同时在通用编辑任务上保持与最强基线相当的性能。EgoEditData与EgoEditBench将向研究社区公开,详情请访问我们的网站https://snap-research.github.io/EgoEdit。
近期强化学习技术在语言模型的推理能力提升方面取得了显著成果,但后训练是否真正扩展了模型在预训练之外获得的推理能力仍不明确。核心挑战在于现代训练流程缺乏可控性:大规模预训练语料不透明,中期训练常被忽视,而强化学习目标与未知的先验知识以复杂方式相互作用。为厘清这一模糊性,我们开发了完全受控的实验框架,分离预训练、中期训练和基于强化学习的后训练的因果贡献。该框架采用具有显式原子操作的合成推理任务、可解析的逐步推理轨迹,以及对训练分布的系统性操控。我们从两个维度评估模型:面向更复杂组合的外推泛化能力,以及跨表层上下文的语境泛化能力。通过该框架,我们调和了关于强化学习有效性的对立观点。研究表明:1)仅当预训练留有足够提升空间、且强化学习数据针对模型能力边界(即困难但尚未超出能力范围的任务)时,强化学习才能产生真实的能力增益(pass@128);2)语境泛化只需最小但充分的预训练接触,此后强化学习可稳定实现能力迁移;3)在固定计算量下,中期训练较单纯强化学习能显著提升性能,证明其在训练流程中至关重要但未被充分探索的作用;4)过程级奖励能减少奖励破解现象并提升推理保真度。这些结果共同阐明了预训练、中期训练与强化学习间的相互作用,为理解和改进语言模型推理训练策略奠定了基础。
当前大多数视觉生成模型在应用扩散或自回归建模前,会将图像压缩至潜在空间。然而,现有方法(如VAE和基础模型对齐编码器)在未显式塑造分布的情况下隐式约束了潜在空间,导致难以确定何种分布最适合建模。我们提出分布匹配变分自编码器(DMVAE),通过分布匹配约束显式对齐编码器潜在分布与任意参考分布。该方法突破了传统VAE高斯先验的局限,可实现与自监督特征、扩散噪声或其他先验分布的对接。基于DMVAE,我们系统探究了何种潜在分布更利于建模,发现自监督学习衍生的分布能在重建保真度与建模效率间取得最佳平衡——仅需64个训练周期即在ImageNet上达到gFID=3.2。实验表明:通过分布级对齐选择合适潜在分布结构(而非依赖固定先验),是弥合易建模潜在空间与高保真图像生成之间差距的关键。代码已开源:https://github.com/sen-ye/dmvae。
人类不仅能看到属性相似性——还能识别关系相似性。苹果与桃子相似是因为二者都是红色水果,但地球也与桃子相似:地壳、地幔和地核分别对应桃子的表皮、果肉和果核。认知科学家认为,这种感知和识别关系相似性的能力正是人类区别于其他物种的关键特征。然而,当前广泛使用的视觉相似性度量方法(如LPIPS、CLIP、DINO)仅关注感知属性相似性,未能捕捉人类所感知的丰富且常出人意料的关系相似性。我们该如何超越图像的可见内容来捕捉其关系属性?如何让具有相同关系逻辑的图像在表征空间中更加接近?为解答这些问题,我们首先将关系图像相似性形式化为可量化问题:当两幅图像内部视觉元素之间的关系或功能相互对应时,即使其视觉属性不同,它们也具有关系相似性。随后我们构建了包含11.4万条图像-文本对的数据集,其中文本经过匿名化处理——描述场景底层的关系逻辑而非表面内容。利用该数据集,我们对视觉-语言模型进行微调以衡量图像间的关系相似性。该模型成为通过底层关系结构(而非表面视觉外观)连接图像的首步尝试。我们的研究表明,虽然关系相似性具有大量实际应用场景,但现有图像相似性模型均未能有效捕捉这一特性——这揭示了视觉计算领域的关键空白。
我们提出多视角金字塔变换器(MVP),一种可扩展的多视角变换器架构,能够在前向传播中直接根据数十至数百张图像重建大规模3D场景。借鉴"观全局以窥全貌,察细微以辨精微"的设计理念,MVP基于两大核心原则构建:1)局部到全局的视角间层级结构,使模型视角从局部视图逐步扩展至视图组乃至完整场景;2)精细到粗略的视角内层级结构,从详细的空间表征出发,逐步聚合为紧凑的信息密集型令牌。这种双重层级结构在实现计算高效性的同时保证了表征丰富性,从而支持快速重建复杂大场景。我们在多个数据集上验证了MVP的性能,结果表明当结合3D高斯溅射作为底层3D表征方法时,该架构在保持高效率和广泛视角配置适应性的同时,实现了业界领先的泛化重建质量。
我们推出LongCat-Image——一款开创性的开源双语(中英)图像生成基础模型,旨在解决当前主流模型在多语言文本渲染、照片级真实感、部署效率及开发者易用性方面的核心挑战。1)我们通过在预训练、中期训练和SFT(监督微调)阶段实施严格的数据策展策略,并结合RL(强化学习)阶段精心设计的奖励模型协同工作,使该模型成为新一代技术标杆,在文本渲染能力与照片级真实感方面表现卓越,并显著提升美学质量。2)尤其值得关注的是,该模型为汉字渲染设立了新的行业标准。即使面对复杂生僻字也能完美支持,在字符覆盖度上超越主流开源与商业方案,同时实现更高的准确性。3)凭借紧凑的模型设计,我们以仅60亿参数的核心扩散模型实现了显著效能提升。该模型规模远小于领域内常见的近200亿或更大规模的混合专家(MoE)架构,在保证极低显存占用的同时实现快速推理,大幅降低部署成本。除生成任务外,LongCat-Image在图像编辑领域同样表现卓越,在标准基准测试中取得SOTA结果,相比其他开源方案具有更优的编辑一致性。4)为全面赋能社区,我们构建了迄今最完整的开源生态体系:不仅发布包含中期训练与完整训练阶段检查点的多版本文本生成及图像编辑模型,更同步开放全流程训练工具链。我们相信LongCat-Image的开放性将为开发者和研究者提供坚实支撑,共同推动视觉内容创作的前沿发展。
近期视频生成模型展现出令人印象深刻的合成能力,但仍受限于单模态条件输入,这制约了其对整体世界的理解能力。该局限性源于跨模态交互的不足以及用于全面世界知识表征的模态多样性缺失。为解决这些问题,我们提出UnityVideo——一个面向世界感知视频生成的统一框架,能够跨多种模态(分割掩码、人体骨架、DensePose、光流和深度图)及训练范式进行联合学习。我们的方法包含两个核心组件:(1)动态噪声注入以统一异构训练范式;(2)带有上下文学习器的模态切换器,通过模块化参数和情境学习实现统一处理。我们贡献了包含130万样本的大规模统一数据集。通过联合优化,UnityVideo加速了模型收敛,并显著提升了对未见数据的零样本泛化能力。实验表明,UnityVideo在视频质量、连贯性以及与物理世界约束的对齐程度上均实现卓越表现。代码与数据详见:https://github.com/dvlab-research/UnityVideo
大型视觉语言模型(VLMs)通过大规模预训练有效弥合了模态鸿沟,获得了与语言对齐的复杂视觉表征。然而,这些为多模态理解任务优化的表征是否蕴含视觉生成的内在潜力,目前仍缺乏深入探索。本文提出视觉生成调优(VGT)这一新范式,旨在激发任意视觉语言模型中潜藏的视觉生成能力。通过对预训练良好的VLMs进行高效的视觉生成调优,我们显著降低了连续空间自回归建模的对齐成本并加速其收敛(提速20倍)。具体而言,我们摒弃了为扩散变换器设计的纠缠式像素级VAE,通过将预训练VLMs的语义编码器与像素解码器的潜在表征对齐,构建了VGT-AE框架。在图像重建任务中,我们以28倍压缩比实现了26.67 PSNR和0.50 rFID,超越专业VAE模型;在视觉生成任务中,我们在自回归模型中取得最先进成果——GenEval得分0.77,DPG-Bench得分78.73。此外,VGT展现出显著的扩展潜力,可灵活赋能任何面向多模态理解训练的VLMs具备视觉生成能力,这为探索下一代统一多模态基础模型开辟了新路径。模型与代码已开源:https://github.com/hustvl/VGT。
提供密集步骤级反馈的过程奖励模型(PRM)虽在强化学习中展现出潜力,但其应用仍受限于昂贵的步骤级标注或真实参考答案的需求。我们提出SPARK三阶段框架:第一阶段由生成器模型产生多样化解法,验证器模型通过并行扩展(自洽性验证)和序列扩展(元批判)进行评估。第二阶段,我们将这些验证输出作为合成训练数据,用于微调生成式过程奖励模型,使其后续在训练中充当奖励信号。实验表明,在步骤级聚合多个独立验证生成的训练数据优于真实结果监督方法——在ProcessBench(数学推理错误步骤识别基准)上达到67.5 F1值,优于参考答案引导训练的66.4和GPT-4o的61.9。最终阶段,我们将带有思维链验证的生成式PRM(PRM-CoT)作为数学推理强化学习的奖励模型,并引入格式约束防止奖励破解。基于Qwen2.5-Math-7B模型,我们在六项数学推理基准测试中取得47.4%的平均准确率,超越基于真实结果的RLVR方法(43.9%)。这项研究实现了无需参考答案却优于真实监督方法的强化学习训练,为缺乏可验证答案或难以获取真实参考的领域开辟了新途径。
工具集成式视觉推理(TiVR)在增强多模态问题解决能力方面展现出巨大潜力。然而,现有TiVR范式主要聚焦于通过强化学习整合各类视觉工具,却忽视了针对不可靠或错误工具输出设计有效响应机制。这一局限在指代与定位任务中尤为突出——不准确的检测工具预测常误导TiVR模型产生幻觉推理。为解决该问题,我们提出VG-Refiner框架,这是首个面向工具精修式指代定位推理的解决方案。技术上,我们引入包含"思考-再思考"两阶段机制,使模型能显式分析并响应工具反馈,同时设计精修奖励机制以激励模型针对不良工具结果进行有效修正。此外,我们提出两项新指标并建立公平评估协议,系统化衡量现有模型的精修能力。通过采用少量任务特定数据增强VG-Refiner的精修能力,我们在指代与推理定位基准测试中实现了准确率和修正能力的显著提升,同时保持了预训练模型的通用能力。
我们提出ReCamDriving——一种纯视觉驱动的、基于相机控制的新型轨迹视频生成框架。相较于修复式方法难以还原复杂伪影、激光雷达方案依赖稀疏不完整线索的局限,本框架利用稠密且场景完整的3D高斯溅射(3DGS)渲染结果提供显式几何指导,实现精确的相机可控生成。为缓解依赖3DGS渲染导致的修复行为过拟合问题,ReCamDriving采用两阶段训练范式:第一阶段通过相机位姿实现粗粒度控制,第二阶段引入3DGS渲染进行细粒度视角与几何引导。此外,我们提出基于3DGS的跨轨迹数据构建策略,消除相机变换模式在训练与测试阶段的差异,从而实现对单目视频的可扩展多轨迹监督。基于此策略,我们构建了包含超11万组平行轨迹视频对的ParaDrive数据集。大量实验表明,ReCamDriving在相机控制精度与结构一致性方面均达到最先进水平。
近期,多模态大语言模型(MLLMs)的发展已实现感知-推理能力的统一,但这些系统仍极易受到越狱攻击的影响,导致安全对齐机制被绕过并诱发有害行为。现有基准如JailBreakV-28K、MM-SafetyBench和HADES虽为多模态漏洞研究提供了重要参考,但普遍存在攻击场景局限、防御评估标准缺失、缺乏统一可复现工具库等问题。为此,我们推出OmniSafeBench-MM——一个面向多模态越狱攻防评估的综合工具库。该工具库整合了13种代表性攻击方法、15种防御策略,以及涵盖9大风险领域与50个细分类别的多样化数据集,并通过协商型、指令型、陈述型三类查询结构还原真实用户意图。除数据覆盖外,该基准建立了三维评估体系:1)危害性评估,采用从低影响个体危害到灾难性社会威胁的多级粒度标准;2)响应与查询意图对齐度;3)回答详细程度,从而实现安全性与实用性的精细化权衡分析。我们在10个开源与8个闭源MLLMs上开展大规模实验,揭示了其对多模态越狱攻击的脆弱性。通过将数据、方法与评估整合为开源可复现平台,OmniSafeBench-MM为未来研究提供了标准化基础。代码已发布于https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM。
尽管主题驱动图像生成领域取得了显著进展,但现有模型仍常偏离参考身份特征,且在多主体复杂场景中表现欠佳。为解决这一挑战,我们推出OpenSubject——一个基于视频的大规模数据集,包含250万样本和435万张图像,专为主题驱动生成与编辑任务构建。该数据集通过利用跨帧身份先验的四阶段流程构建:(一)视频筛选:通过分辨率与美学过滤获取高质量视频片段;(二)跨帧主题挖掘与配对:基于视觉语言模型的类别共识、局部定位及多样性感知配对策略筛选图像对;(三)身份保持参考图像合成:采用分割图引导的外绘技术生成主题驱动生成的输入图像,结合框引导的内绘技术生成主题驱动编辑的输入图像,辅以几何感知增强与不规则边界侵蚀;(四)验证与标注:使用视觉语言模型验证合成样本,对失败样本基于第三阶段重新合成,并构建长短文本描述。此外,我们建立了涵盖主题驱动生成与编辑的基准测试体系,通过视觉语言模型评估身份保真度、提示符遵循度、编辑一致性与背景一致性。大量实验表明,基于OpenSubject的训练能显著提升生成与编辑性能,尤其在复杂场景中表现突出。
基于解码的回归方法将回归任务重构为序列生成问题,已成为应用大语言模型进行数值预测的重要范式。然而,离散化的词元级优化目标(如交叉熵)与连续数值之间的错位制约了该范式的发展。现有依赖词元级约束的方法往往难以捕捉目标值的全局量级,限制了预测精度与泛化能力。本文提出通过强化学习释放基于解码的回归方法潜力,将生成过程建模为马尔可夫决策过程,利用序列级奖励机制保障全局数值一致性。在表格回归和代码指标回归任务上的大量实验表明,我们的方法(特别是采用ReMax和GRPO优化器时)持续超越最先进的词元级基线方法和传统回归头,彰显了引入序列级信号的优势。进一步分析揭示,强化学习能显著提升采样效率和预测精度,使基于解码的回归成为通用数值预测中稳健而精确的范式。
视觉生成模型(如扩散模型)通常运行在压缩潜在空间中,以平衡训练效率与样本质量。与此同时,利用高质量预训练视觉表征的研究日益增多,或通过将其对齐在VAE内,或直接整合进生成模型。然而,由于理解导向的特征与生成友好的潜在空间之间存在根本性错配,适配这类表征仍具挑战性。表征编码器受益于能捕捉掩码区域多元假设的高维潜在表示,而生成模型则偏好必须忠实保留注入噪声的低维潜在表示。这种差异导致先前研究不得不依赖复杂的目标函数与架构。本文提出FAE(特征自编码器),该框架通过仅需单个注意力层的极简设计,将预训练视觉表征适配为适用于生成的低维潜在表示,同时保留足够信息以支持重建与理解任务。其核心在于耦合两个独立的深度解码器:一个训练用于重建原始特征空间,另一个则将重建特征作为图像生成的输入。FAE具有通用性,可与多种自监督编码器(如DINO、SigLIP)结合,并嵌入两类不同的生成模型家族:扩散模型与标准化流。在类别条件生成和文生图基准测试中,FAE均表现出强劲性能。例如在ImageNet 256×256数据集上,搭载CFG的扩散模型实现了接近最优的FID指标(800轮训练达1.29,80轮训练达1.70);未使用CFG时,FAE仍达到当前最优的FID指标(800轮训练为1.48,80轮训练为2.08),同时展现了高质量生成与快速学习能力。
我们提出GRAPE(群表征位置编码),一种基于群作用的统一位置编码框架。该框架整合了两类机制:(i) SO(d)群中的乘法旋转(乘法GRAPE),(ii) 一般线性群GL中单极作用产生的加性逻辑偏置(加性GRAPE)。在乘法GRAPE中,Z中的位置n(或R中的t)通过G(n)=exp(n,ω,L)作用,其中L是R^{d×d}中的二阶斜对称生成元,生成具有闭式矩阵指数的相对、组合、保范映射。当d/2个平面为具有对数均匀谱的规范坐标对时,可精确还原RoPE。通过学习可交换子空间和紧致非交换混合,该几何结构被严格扩展至分别以每头O(d)和O(r d)成本捕获跨子空间特征耦合。在加性GRAPE中,加性逻辑值产生于一阶(或低阶)单极作用,精确还原ALiBi和遗忘变换器(FoX)作为特例,同时保持精确的相对规律和流式缓存能力。总体而言,GRAPE为长上下文模型中的位置几何提供了原则性设计空间,将RoPE和ALiBi囊括为特例。项目页面:https://github.com/model-architectures/GRAPE。
自回归生成模型的最新进展催生了日益强大的媒体合成系统。其中,跨尺度预测已成为流行范式,模型通过由粗到细的方式生成图像。然而,尺度化自回归模型存在曝光偏差问题,影响生成质量。我们识别出该问题的两个主要成因:(1) 训练-测试失配,即推理阶段模型必须依赖自身不完美的预测结果;(2) 尺度学习难度失衡,某些尺度表现出过高的优化复杂度。通过对训练动态的系统分析,我们提出自回归优化(SAR)方法以解决这些局限。SAR引入交错尺度推演(SSR)机制执行轻量级自回归推演,使模型接触其中间预测结果以实现训练测试模式对齐;同时配备对比性强制学习损失(CSFL),为自生成上下文提供充分监督以确保训练稳定性。实验表明,将SAR应用于预训练自回归模型能以最小计算开销持续提升生成质量。例如在ImageNet 256数据集上,FlexVAR-d16模型经10轮训练(32xA100 GPU耗时5小时)即可实现FID指标降低5.2%。基于其高效性、可扩展性和有效性,我们期待SAR成为视觉自回归生成领域可靠的训练后优化方法。
近期,视觉语言模型(VLM)通过强化学习(RL)实现了卓越的推理能力,这为在经验时代实现持续自我进化的大型视觉语言模型(LVLM)提供了可行路径。然而,VLM的强化学习需要大量高质量多模态数据,在化学、地球科学和多模态数学等专业领域尤为困难。现有策略如合成数据和自奖励机制存在分布局限和对齐难题,最终导致奖励破解:模型利用高奖励模式,致使策略熵崩溃并破坏训练稳定性。我们提出DoGe(解耦以泛化)框架,通过双重解耦机制引导模型首先从上下文而非问题求解中学习,重点关注被合成数据方法忽视的问题情境场景。该框架将学习过程解耦为双组件(思考器与求解器),合理量化该过程的奖励信号,并提出从自由探索上下文到实际任务求解的两阶段RL后训练方法。其次,为提升训练数据多样性,DoGe构建了渐进式课程学习流程:扩展的原始领域知识库与迭代进化的种子问题池。实验表明,我们的方法在多个基准测试中持续超越基线,为实现自我进化的LVLM提供了可扩展路径。
机器人操作中的泛化能力对于在开放世界部署机器人及实现通用人工智能至关重要。尽管当前视觉-语言-动作模型利用大型预训练理解模型实现感知和指令跟随,但其在新任务、新物体和新环境中的泛化能力仍显不足。本文提出VideoVLA——一种将大型视频生成模型转化为机器人操作器的简易框架。该系统接收语言指令和图像输入,可同步预测动作序列及未来视觉结果。基于多模态扩散Transformer架构,VideoVLA通过预训练视频生成模型实现视觉与动作的联合建模。实验表明,高质量的视觉想象与可靠的动作预测及任务成功率呈正相关,印证了视觉想象在操作中的关键作用。该框架展现出强大的泛化能力,包括模仿其他智能体的技能和处理新异物体。这种动作与视觉结果的双重预测策略,探索了机器人学习范式的转变,为操作系统解锁了新的泛化潜能。
长对话系统普遍存在状态惰性问题,即静态约束阻碍模型在动态演变的用户意图与既定历史语境间实现有效协调。为此,我们提出DZ-TDPO——一种非破坏性对齐框架,通过融合冲突感知的动态KL约束与校准后的时序注意力偏置实现协同优化。在Multi-Session Chat (MSC)数据集上的实验表明,DZ-TDPO在Phi-3.5模型上达到55.4%的胜率,同时保持优异的零样本泛化能力。尺度分析揭示出"容量-稳定性权衡"规律:小模型需付出"对齐代价"(困惑度激增)来克服历史惰性,而Qwen2.5-7B大模型以可忽略的困惑度开销实现50.8%胜率。这证实通过精确的注意力调控(而非破坏性权重更新)可缓解状态惰性,且能保持跨模型尺度的通用能力(MMLU)。代码与数据已开源:https://github.com/lyj20071013/DZ-TDPO
随着机器人进入人类工作空间,亟需使其能够理解具身化的人类指令,从而实现直观流畅的人机交互。然而,由于缺乏能够捕捉多样化人机交互场景中自然具身互动的大规模数据集,精确理解仍面临挑战。现有数据集存在视角偏差、单视角采集、非语言手势覆盖不足以及主要关注室内环境等问题。为解决这些局限性,我们提出Refer360数据集——一个在室内外多视角环境下采集的大规模具身化语言与非语言交互数据集。此外,我们设计了一种多模态引导残差模块MuRes,旨在提升具身化指代表达理解能力。该模块通过构建信息瓶颈,提取显著的模态特异性信号并将其强化注入预训练表征,从而形成面向下游任务的互补特征。我们在四个包括Refer360在内的人机交互数据集上开展大量实验,结果表明当前多模态模型难以全面捕捉具身互动特征,但通过MuRes增强后性能获得持续提升。这些发现确立了Refer360作为重要基准数据的价值,同时展现出引导残差学习在推动人类环境中机器人的具身指代表达理解能力方面的潜力。
基于梯度的学习在博弈中的经典收敛性保证要求伪梯度在欧几里得几何中满足(强)单调性条件(如Rosen于1965年所示),但该条件即使在具有强玩家间耦合的简单博弈中也常不成立。我们提出小增益纳什条件(SGN),这是一种在定制块加权几何中的块小增益条件。SGN将局部曲率和玩家间Lipschitz耦合边界转化为可处理的收缩证明:它构建了一个加权块度量,使得伪梯度在这些边界成立的任意区域均呈现强单调性——即使其在欧几里得意义下非单调。连续流在此设计的几何中呈指数收缩,且投影欧拉法与RK4离散化在由SGN裕度和局部Lipschitz常数导出的显式步长范围内收敛。我们的分析揭示了一个经认证的“时间尺度带”,这是一种非渐近的、基于度量的证明,其作用类似于TTUR机制:SGN并非通过渐近不等步长强制实现时间尺度分离,而是识别出有限范围的相对度量权重,使得单一步长动力学可证明具有收缩性。我们在二次博弈上验证该框架——当欧几里得单调性分析无法预测收敛时,SGN仍能成功认证收敛性,并将该构造扩展至马尔可夫博弈中熵正则化策略梯度的镜像/费希尔几何。最终形成离线认证流程:在紧致区域估计曲率、耦合及Lipschitz参数,优化块权重以扩大SGN裕度,并返回一个包含度量、收缩率及安全步长的结构化可计算收敛证明,适用于非单调博弈。
向量量化变分自编码器(VQ-VAE)是一种将图像压缩为离散标记的离散自编码器,其离散化特性导致模型训练困难。本文提出了一种名为高斯量化(GQ)的简易有效技术,可将满足特定约束的高斯VAE无需训练即可转换为VQ-VAE。该方法通过生成随机高斯噪声作为码本,并寻找与后验均值最接近的噪声向量。理论分析证明,当码本对数规模超过高斯VAE的比特回传编码速率时,可确保实现较小的量化误差。实践层面,我们提出了目标散度约束(TDC)启发式方法,用于训练高斯VAE以提升GQ效果。实验表明,在UNet和ViT架构上,GQ在性能上超越了VQGAN、FSQ、LFQ及BSQ等现有VQ-VAE模型。此外,TDC技术也优于TokenBridge等传统高斯VAE离散化方法。源代码已发布于https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE。
近期关于结构化文本翻译的研究仍局限于句子层面,难以有效处理复杂的文档级XML或HTML结构。为此,我们提出格式强化学习(FormatRL)方法,该方法在监督微调模型基础上采用组相对策略优化,直接优化两种新型结构感知奖励指标:1) TreeSim——衡量预测XML树与参考XML树的结构相似度;2) Node-chrF——在XML节点层面评估翻译质量。此外,我们应用了StrucAUC这一能区分细微错误与重大结构故障的细粒度评估指标。在SAP软件文档基准测试上的实验表明,该方法在六项指标上均有提升,进一步分析揭示了不同奖励函数如何协同提升结构完整性与翻译质量。
我们提出了一种两阶段自监督框架,该框架将联合嵌入预测架构(JEPA)与密度自适应注意力机制(DAAM)相结合,用于学习鲁棒的语音表征。第一阶段采用集成DAAM的JEPA,通过潜在空间中的掩码预测学习语义音频特征,完全脱离波形重构。第二阶段利用这些表征,通过有限标量化(FSQ)和混合基数打包方案实现高效标记化,随后通过HiFi-GAN解码器进行高保真波形重建。通过将基于高斯混合的密度自适应门控机制集成到JEPA编码器中,该模型能以2.5Hz的低帧率执行自适应时序特征选择,并发现层次化语音结构。最终生成的标记(47.5标记/秒)具有可逆性、高压缩度和语言模型友好性,其性能与现有神经音频编解码器相当,且通常更为高效。
本文深入探讨了最新两代分割基础模型SAM2与SAM3之间的根本性断层。我们阐释了为何SAM2基于提示的分割专业知识无法迁移至SAM3的多模态概念驱动范式。SAM2通过空间提示(点、框、掩码)实现纯几何与时序分割,而SAM3则引入了统一视觉-语言架构,具备开放词汇推理、语义定位、对比对齐及基于范例的概念理解能力。本文通过五大核心维度展开分析:(1)提示分割与概念分割的范式断层,对比SAM2的空间提示语义与SAM3的多模态融合及文本条件掩码生成;(2)架构差异,详述SAM2纯视觉-时序设计与SAM3融合视觉语言编码器、几何与范例编码器、融合模块、DETR风格解码器、对象查询及专家混合 ambiguity 处理机制;(3)数据集与标注差异,对比SAM2的SA-V视频掩码与SAM3的多模态概念标注语料;(4)训练与超参数区别,揭示SAM2优化经验为何不适用于SAM3;(5)评估指标与失效模式,勾勒从几何IoU指标向语义化开放词汇评估的转变。这些分析共同确立了SAM3作为新一代分割基础模型的地位,并为新兴的概念驱动分割时代指明了发展方向。