每日精选AI研究论文及翻译
我们推出Kling-Omni——一个通用生成式框架,能够直接从多模态视觉语言输入中合成高保真度视频。该框架采用端到端视角,弥合了多样化视频生成、编辑与智能推理任务之间的功能割裂,将其整合为统一系统。与碎片化的流水线方法不同,Kling-Omni支持包括文本指令、参考图像和视频上下文在内的多样化用户输入,将其处理为统一的多模态表征,最终输出具有电影级画质与高度智能化的视频内容。为支撑这些能力,我们构建了作为多模态视频创作基础的综合数据系统,并通过高效的大规模预训练策略与推理基础设施优化进一步强化框架性能。综合评估表明,Kling-Omni在上下文生成、基于推理的编辑及多模态指令跟随方面展现出卓越能力。我们相信,Kling-Omni不仅是内容创作工具,更是向能够感知、推理、生成并交互动态复杂世界的多模态世界模拟器迈出的关键一步。
前沿的智能体AI系统建立在基础模型之上,这些模型能够通过适配实现规划、推理和外部工具交互,以执行日益复杂和专门化的任务。随着此类系统能力与适用范围的扩展,适配机制已成为提升性能、可靠性和泛化能力的核心手段。本文将这些快速发展的研究方向系统化地整合为涵盖智能体适配与工具适配的统一框架,并将其进一步分解为工具执行信号驱动与智能体输出信号驱动的智能体适配模式,以及智能体无关与智能体监督的工具适配模式。我们证明该框架有助于厘清智能体AI适配策略的设计空间,明确其权衡关系,并为系统设计过程中的策略选择与切换提供实践指导。随后我们逐类评述代表性方法,剖析其优势与局限,并指出关键开放挑战与未来机遇。总体而言,本文旨在为构建更强大、高效、可靠的智能体AI系统提供概念基础与实践路线图。
本文提出LLaDA2.0——通过从自回归模型进行系统性转换构建的离散扩散大语言模型元组,总参数量最高达1000亿,为前沿规模部署建立了新范式。该方法摒弃成本高昂的从零训练,秉持知识继承、渐进适应与效率优先的设计原则,通过新颖的三阶段基于块级WSD的训练方案(包含块扩散中逐步增大块尺寸的预热阶段、大规模全序列扩散的稳定阶段、回归紧凑块尺寸扩散的衰减阶段),将预训练自回归模型无缝转换为离散扩散模型。结合基于SFT和DPO的后训练对齐,我们得到LLaDA2.0-mini(160亿参数)和LLaDA2.0-flash(1000亿参数)这两个针对实际部署优化的指令调优混合专家模型变体。通过保留并行解码优势,这些模型在前沿规模上实现了卓越的性能与效率。两个模型均已开源。
受生成式预训练在自然语言领域成功的启发,我们探究相同原理能否催生强大的自监督视觉学习器。不同于训练模型输出下游任务特征,我们直接训练模型生成嵌入以执行预测任务。本研究探索了这种从学习表征到学习模型的转变——具体而言,模型通过因果掩码和梯度截断技术,学习基于历史块嵌入预测未来嵌入,我们将其称为"下一嵌入预测自回归(NEPA)"。实验表明,仅以下一嵌入预测为学习目标、在ImageNet-1k上预训练的简单Transformer即可取得显著效果,无需像素重建、离散标记、对比损失或任务特定头。该方案保持了架构简洁性与可扩展性,无需引入额外设计复杂度。NEPA在多项任务中表现优异:ViT-B和ViT-L骨干网络经微调后在ImageNet-1K上分别达到83.8%和85.3%的top-1准确率,并在ADE20K语义分割任务上实现有效迁移。我们相信基于嵌入的生成式预训练为视觉自监督学习提供了一条简洁、可扩展且可能模态无关的新路径。
立体显示技术(包括VR头显与3D影院)的快速发展,对高质量立体视频内容的需求日益增长。然而,3D视频制作仍面临成本高昂、流程复杂的问题,而基于多阶段"深度-形变-修复"(DWI)流程的单目转立体方法受限于误差传播、深度歧义以及平行/汇聚式立体格式不兼容等瓶颈。为应对这些挑战,我们首次提出UniStereo——覆盖双立体格式的大规模统一数据集,以实现公平基准测试与鲁棒模型训练。基于该数据集,我们进一步提出StereoPilot模型:该高效前馈模型无需依赖显式深度图或迭代扩散采样,可直接合成目标视角画面。通过可学习的格式切换器与循环一致性损失,StereoPilot能自适应不同立体格式并提升一致性。大量实验表明,StereoPilot在视觉保真度与计算效率上均显著优于现有最优方法。项目页面:https://hit-perfect.github.io/StereoPilot/。
视频生成领域的最新进展为音视频统一生成开辟了道路。本研究推出Seedance 1.5 pro——一个专为原生音视频联合生成设计的基础模型。该模型采用双分支扩散Transformer架构,通过跨模态联合模块与专业化多阶段数据管道的协同整合,实现了卓越的视听同步效果与顶尖生成质量。为确保实际应用价值,我们实施了精细的训后优化策略,包括基于高质量数据集的监督微调(SFT)以及采用多维度奖励模型的人类反馈强化学习(RLHF)。此外,我们引入了加速推理框架,使生成速度提升超10倍。Seedance 1.5 pro凭借精准的多语言及方言口型同步、动态电影级运镜控制和增强的叙事连贯性,成为专业级内容创作的强大引擎。该模型现已在火山引擎平台开放访问:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo。
本研究提出了一种全景度量深度基础模型,该模型能够泛化至不同场景距离。我们从数据构建与框架设计双重视角探索了数据闭环范式。通过整合公共数据集、基于UE5模拟器的高质量合成数据、文本生成图像模型以及网络真实全景图像,我们构建了大规模数据集。为缩小室内/室外与合成/真实数据间的领域差异,我们引入了三阶段伪标签筛选流程,为未标注图像生成可靠真值。模型方面采用具有强预训练泛化能力的DINOv3-Large作为主干网络,并创新性地提出即插即用的距离掩码头模块、锐度中心优化和几何中心优化策略,以提升模型对多变距离的鲁棒性并强化多视角间的几何一致性。在多个基准测试(如Stanford2D3D、Matterport3D和Deep360)上的实验表明,该模型具有卓越性能与零样本泛化能力,尤其在真实场景中展现出鲁棒稳定的度量预测效果。项目页面详见:https://insta360-research-team.github.io/DAP_website/
景深控制在摄影中至关重要,但获得完美对焦往往需要多次尝试或特殊设备。单图像重对焦技术仍面临挑战,其核心在于恢复清晰内容并生成逼真的虚化效果。现有方法存在明显局限:需要全焦输入、依赖模拟器生成的合成数据,且光圈控制能力有限。我们提出生成式重对焦技术,采用DeblurNet从多样化输入中恢复全焦图像,再通过BokehNet实现可控虚化的两步处理流程。本研究的核心创新是半监督训练方法,通过结合合成配对数据与未配对的真实虚化图像,利用EXIF元数据捕捉超越模拟器能力的真实光学特性。实验表明,我们的方法在散焦去模糊、虚化合成和重对焦基准测试中均达到最优性能。此外,生成式重对焦技术支持文本引导的参数调整和自定义光圈形状。
上下文扩散模型使用户能够以惊人的便捷性和真实感修改图像。然而这种强大能力也引发了严重的隐私担忧:个人图像可能被轻易用于身份冒充、虚假信息传播或其他恶意用途,且均未经所有者同意。虽然已有研究探索通过输入扰动来防范个性化文生图模型的滥用,但现代大规模基于上下文DiT模型的鲁棒性仍未得到充分检验。本文提出DeContext方法,通过保护输入图像免受未经授权的上下文编辑。我们的核心发现是:源图像的上下文信息主要通过多模态注意力层传播至输出。通过注入微小定向扰动来削弱这些交叉注意力路径,DeContext能有效切断输入与输出之间的关联。这种简易防御机制兼具高效性与鲁棒性。我们进一步证明早期去噪步骤和特定Transformer模块主导着上下文传播,这使得我们能将扰动集中在关键区域。在Flux Kontext和Step1X-Edit数据集上的实验表明,DeContext能持续阻断非授权图像编辑,同时保持视觉质量。这些结果凸显了基于注意力机制的扰动作为图像操纵防御手段的有效性。
近期,文本到图像生成模型(如Imagen、Stable Diffusion和FLUX)的技术突破显著提升了视觉生成质量。然而,这些模型的性能本质上受限于训练数据质量。网络爬取和合成图像数据集常包含低质量或冗余样本,导致视觉保真度下降、训练过程不稳定及计算效率低下。因此,有效的数据筛选对提升数据效率至关重要。现有方法依赖于高成本的人工筛选或基于单维度特征的启发式评分机制进行文本-图像数据过滤。尽管基于元学习的方法已在大型语言模型中有所探索,但尚未适配图像模态。为此,我们提出**Alchemist**——一个基于元梯度的框架,用于从大规模文本-图像对中筛选最优数据子集。该方法通过数据中心的迭代模型优化,自动学习评估每个样本的影响力。Alchemist包含两个核心阶段:数据评级与数据剪枝。我们训练轻量级评级器,基于梯度信息并融合多粒度感知来估计样本影响力,继而采用Shift-G采样策略筛选信息丰富的子集以提升模型训练效率。Alchemist是首个面向文本到图像模型训练的自动化、可扩展的元梯度数据筛选框架。在合成与网络爬取数据集上的实验表明,Alchemist能持续提升视觉质量与下游任务性能:使用其筛选的50%数据训练模型,效果可超越全数据集训练。
我们推出WorldCanvas框架,这是一种可提示世界事件的创新架构,通过融合文本、轨迹与参考图像实现丰富的用户导向式模拟。与纯文本方法及现有轨迹控制的图像-视频生成技术不同,我们的多模态方案将编码运动、时序和可见性的轨迹,与表达语义意图的自然语言、奠定物体视觉特征的参考图像相结合,能够生成包含多智能体交互、物体进出场、参考图像引导的外观呈现及反直觉事件的连贯可控事件。生成视频不仅展现时序连贯性,更具备涌现一致性——在物体暂时消失时仍能保持身份识别与场景稳定性。通过支持富有表现力的世界事件生成,WorldCanvas推动世界模型从被动预测器升级为可交互的用户定制模拟器。项目页面详见:https://worldcanvas.github.io/。
潜在扩散模型(LDMS)在图像生成领域实现了最先进的性能,但其重建式去噪目标仅提供间接的语义监督:高级语义特征缓慢浮现,需更长训练时间且限制生成质量。近期研究通过两种方式注入视觉基础模型(VFMs)的语义信息:要么通过外部表征对齐,要么仅在扩散过程内部联合建模VFMs的局部特征片段,未能充分利用其丰富的非线性多层空间语义。我们提出REGLUE(全局-局部统一编码的表征纠缠框架),该统一潜在扩散框架在单个SiT主干网络中联合建模:(i)VAE图像潜在表征,(ii)紧凑的局部(块级)VFM语义,以及(iii)全局(图像级)[CLS]标记。轻量级卷积语义压缩器将多层VFM特征非线性聚合为低维空间结构化表征,在扩散过程中与VAE潜在表征形成纠缠。外部对齐损失进一步将内部表征正则化至冻结的VFM目标。在ImageNet 256×256数据集上,REGLUE相较于SiT-B/2和SiT-XL/2基线,以及REPA、ReDi和REG方法,持续提升FID指标并加速收敛。大量实验表明:(a)空间VFM语义至关重要,(b)非线性压缩是释放其全部效益的关键,(c)全局标记与外部对齐在我们提出的全局-局部-潜在联合建模框架中起到互补的轻量级增强作用。代码已开源:https://github.com/giorgospets/reglue。
当前多模态模型虽能基于二维图像回答问题,但缺乏对三维物体的本质感知能力,这限制了其理解三维场景中空间关系与深度信息的能力。本研究提出N3D-VLM创新性统一框架,将原生三维物体感知与三维视觉推理无缝融合,既能实现精确的三维定位,又可达成可解释的空间理解。与直接从RGB/RGB-D输入预测答案的传统端到端模型不同,我们的方法赋予模型原生三维物体感知能力,使其能根据文本描述直接在三维空间中定位物体。在实现精准三维定位的基础上,模型进一步开展显式三维推理,获得更具可解释性和结构化的空间认知。为支撑这些能力的稳健训练,我们开发了可扩展的数据构建流程,通过深度估计将大规模二维标注提升至三维空间,使三维物体定位数据的多样性和覆盖范围显著提升,其规模达到现有最大单图像三维检测数据集的六倍以上。该流程还生成了针对三维思维链推理的空间问答数据集,为三维物体定位与空间推理的联合训练提供支持。实验结果表明,我们的统一框架不仅在三维定位任务上达到最先进性能,在视觉语言模型的三维空间推理方面也持续超越现有方法。
近期大型语言模型强化学习的发展趋势日益复杂化:多阶段训练流程、动态超参数调度以及课程学习策略层出不穷。这引发了一个根本性问题:此类复杂性是否必要?我们提出JustRL方案,采用固定超参数的单一阶段极简训练法,在两个15亿参数推理模型上取得领先性能(在九项数学基准测试中平均准确率分别达54.9%和64.3%),同时计算消耗较复杂方法减少两倍。相同超参数无需调优即可跨模型迁移,4000余步训练过程呈现平滑单调提升,未出现通常需要干预的崩溃或平台期。关键的是,消融实验表明,添加显式长度惩罚、鲁棒验证器等"标准技巧"反而可能因压缩探索空间而降低性能。这些结果暗示,领域内可能正在通过增加复杂性来解决本可通过稳定、规模化基线自动消解的问题。我们公开模型与代码,旨在为学界建立一个经过验证的简易基线。
近期研究表明,多模态大语言模型(MLLMs)通过结合视觉工具交互的多模态交错思维链(CoT)能显著提升性能。然而,现有开源模型常表现出盲目使用工具的逻辑模式,即便在无需视觉工具时仍频繁调用,这不仅大幅增加推理开销,还导致模型性能下降。为此,我们提出AdaTooler-V——一种能通过判断视觉问题是否真正需要工具来实现自适应工具调用的MLLM。首先,我们引入AT-GRPO强化学习算法,该算法根据每个样本的“工具效益评分”自适应调整奖励尺度,激励模型仅在工具能带来实质提升时调用。此外,我们构建了两个训练数据集:包含10万样本的AdaTooler-V-CoT-100k用于监督微调冷启动,以及涵盖单图像、多图像和视频数据的AdaTooler-V-300k用于带可验证奖励的强化学习。在12个基准测试上的实验表明,AdaTooler-V具备强大的推理能力,在多样化的视觉推理任务中超越现有方法。值得注意的是,AdaTooler-V-7B在高分辨率基准V*上达到89.8%的准确率,超越了商用闭源模型GPT-4o和Gemini 1.5 Pro。所有代码、模型及数据均已开源。
尽管图像编辑技术发展迅猛,视频编辑领域仍待深入探索,面临一致性、可控性与泛化能力等挑战。本研究系统梳理了数据、架构与控制三个维度的设计空间,提出EasyV2V这一基于指令的视频编辑框架。数据层面,我们整合现有专家模型与快速反演技术构建多样化视频对,通过单帧监督与仿射运动伪配对将图像编辑提升至视频维度,挖掘密集标注片段生成视频训练对,并引入转场监督以指导编辑过程的动态呈现。模型层面,我们发现预训练文生视频模型具备编辑潜力,由此提出简化架构:仅需序列拼接的条件输入配合轻量级LoRA微调即可训练出强大模型。控制方面,我们通过统一掩码机制实现时空协同控制,并支持可选参考图像输入。整体而言,EasyV2V支持灵活输入模式(如视频+文本、视频+掩码+文本、视频+掩码+参考图+文本),在视频编辑效果上超越同期成果与商业系统,达到当前最优水平。项目页面:https://snap-research.github.io/easyv2v/
当前基于扩散模型的长篇幅人像动画加速方法难以确保身份特征的稳定性。本文提出FlashPortrait——一种能合成保持身份特征、无限长度视频的端到端视频扩散变换器,其推理速度最高可提升6倍。该技术首先通过现成特征提取器计算身份无关的面部表情特征,随后引入标准化面部表情模块,通过均值方差归一化将面部特征与扩散潜变量对齐,从而提升面部建模中的身份稳定性。在推理阶段,采用动态滑动窗口机制对重叠区域进行加权融合,确保长动画的平滑过渡与身份一致性。在每个上下文窗口中,基于特定时间步的潜变量变化率及扩散层间导数幅值比,利用当前时间步的高阶潜变量导数直接预测未来时间步的潜变量,从而跳过多个去噪步骤实现6倍加速。基准测试表明,FlashPortrait在定性与定量评估中均展现出卓越性能。
奖励模型(RMs)对大语言模型(LLMs)的训练至关重要,但在处理交错图像与文本序列的全能模型领域仍待深入探索。我们推出多模态奖励基准2(MMRB2),这是首个针对多模态理解与(交错)生成任务的综合奖励模型评估体系。MMRB2涵盖四大任务:文生图、图像编辑、交错生成及多模态推理("图像思维"),每个任务包含来自23个模型和智能体在21项源任务中产生的1000对专家标注偏好数据。该基准具有三大设计特点:(1)实用且具挑战性的提示词;(2)汇集顶尖模型与智能体的响应;(3)通过集成过滤策略筛选出具有强人类专家共识的偏好对。基于MMRB2,我们评估了各子任务的现有评判器,包括多模态LLM即评判器及经人类偏好训练的模型。最新Gemini 3 Pro准确率达75-80%,GPT-5与Gemini 2.5 Pro达到66-75%(人类水平>90%),但已超越广泛使用的GPT-4o(59%)。最佳开源模型Qwen3-VL-32B取得与Gemini 2.5 Flash相当的准确率(64%)。我们通过N选优采样证明MMRB2表现与下游任务成功率高度相关,并深入分析指出奖励模型未来改进的关键方向。
本文研究了具有可验证奖励的强化学习(RLVR)中的探索-利用权衡问题,该框架旨在提升大语言模型(LLM)的推理能力。近期研究表明,RLVR可通过两种看似矛盾的机制激发LLM强大的数学推理能力:伪奖励(通过奖励与真实答案无关的结果来抑制利用行为)和熵最小化(通过推动模型产生更自信的确定性输出来抑制探索行为)。这一矛盾动态凸显出令人困惑的现象:抑制利用与抑制探索均能提升推理性能,但调和这两种效应的内在原理尚不明确。我们聚焦两个核心问题:(i)策略熵如何关联性能;(ii)伪奖励是否通过裁剪偏差与模型污染的相互作用产生增益。实验结果表明,伪奖励下的裁剪偏差会降低策略熵,从而产生更自信的确定性输出,而仅靠熵最小化不足以实现性能提升。我们进一步提出奖励错配模型,解释为何伪奖励在污染场景之外仍能提升性能。本研究阐明了伪奖励获益的内在机制,并为更有效的RLVR训练提供了理论依据。
基于指令的图像编辑技术实现了自然语言对视觉修改的控制,但现有模型在指令-视觉复杂度(IV-Complexity)场景下表现不佳——当复杂指令遇到杂乱或模糊的图像时尤其明显。我们提出RePlan(区域对齐规划)框架,采用“先规划后执行”策略,将视觉语言规划器与扩散编辑器相结合。规划器通过逐步推理分解指令并显式定位目标区域;编辑器随后采用免训练的注意力区域注入机制实施修改,无需迭代修复即可实现精准的并行多区域编辑。为强化规划能力,我们基于GRPO强化学习算法,仅使用1,000条纯指令样本进行训练,显著提升了推理准确性与格式可靠性。我们还构建了IV-Edit基准数据集,专注于细粒度区域定位和知识密集型编辑任务。在IV-Complex场景测试中,RePlan在区域精度和整体保真度上持续超越基于海量数据训练的基线模型。项目页面:https://replan-iv-edit.github.io
我们推出ModelTables基准测试集,该数据集收录了模型湖中的性能配置表格,这些表格的结构化语义常被纯文本检索所忽略。该语料库整合了Hugging Face模型卡片、GitHub自述文件及相关论文,将每个表格与其所属的模型及发表背景建立关联。与开放数据湖表格相比,模型表格规模更小但展现出更密集的跨表关联,反映了模型与基准测试体系间的紧密耦合演化。当前版本涵盖超6万个模型与9万张表格。为评估模型与表格的关联度,我们采用三种互补信号构建多源基准真值:(1)论文引用链,(2)显式模型卡片链接与继承关系,(3)共享训练数据集。我们以表格搜索为典型应用场景开展实证研究,在基准测试上对比了传统数据湖搜索操作(可合并、可连接、关键词检索)与信息检索基线方法(稠密检索、稀疏检索、混合检索)。基于并集语义的表格检索总体P@1达54.8%(引用信号54.6%,继承信号31.3%,共享数据集信号30.6%);基于表格的稠密检索P@1为66.5%,元数据混合检索达54.1%。评估结果表明表格搜索方法仍有明显提升空间。通过开源ModelTables及其构建流程,我们首次建立了描述AI模型的大规模结构化数据基准。模型湖中的表格发现应用案例,为开发更精准的语义检索、结构化比对及模型知识体系化组织提供了实践依据。相关源代码、数据及其他材料已发布于https://github.com/RJMillerLab/ModelTables。
GUI定位是构建高效能GUI智能体的关键组成部分。然而现有定位基准存在显著局限:要么数据量不足且领域覆盖狭窄,要么过度聚焦单一平台并需要高度专业化的领域知识。本研究提出VenusBench-GD——一个跨平台、双语言的综合GUI定位基准,支持现实应用场景的分层评估。该基准的贡献包括:(一)推出覆盖海量应用、多样化UI元素及丰富标注数据的大规模跨平台基准;(二)建立面向定位任务的高质量数据构建流程,实现比现有基准更高的标注精度;(三)通过提出分层任务分类法扩展元素定位范畴,将定位划分为基础与高级两大类别,涵盖六个设计用于从互补视角评估模型的子任务。实验发现揭示关键洞察:通用多模态模型在基础定位任务上已媲美甚至超越专用GUI模型,而高级任务仍更青睐GUI专用模型,尽管后者存在明显过拟合和鲁棒性不足的问题。这些结果凸显了建立全面多层次评估框架的必要性。
随着大语言模型(LLM)突破文本范畴,将语音作为原生模态进行整合催生了SpeechLLM。这类模型旨在直接翻译口语,从而绕开传统的基于转写的处理流程。然而,这种整合是否比成熟的级联架构更能提升语音到文本的翻译质量,仍是一个悬而未决的问题。我们推出"Hearing to Translate"——首个全面测试框架,系统性地将5种前沿SpeechLLM与16个结合顶尖语音基础模型(SFM)与多语言LLM的直接/级联强效系统进行基准比较。我们的分析涵盖16个基准数据集、13种语言对和9种挑战性场景(包括不流利语音、含噪语音及长语音)。在这项广泛评估中,我们发现级联系统整体仍最为可靠,而当前SpeechLLM仅在特定场景下与级联系统表现相当,SFM则落后于两者。这表明无论将LLM整合至模型内部还是处理流程中,都是实现高质量语音翻译的关键。
当前多模态大语言模型(MLLMs)的传统评估方法缺乏可解释性,往往难以充分揭示模型间的显著能力差距。为此,我们提出AuditDM——一种通过审计模型分歧主动发现并修正MLLM失效模式的自动化框架。该框架通过强化学习微调MLLM作为审计器,使其生成能最大化目标模型间分歧的挑战性问题和反事实图像。训练完成后,审计器可挖掘出大量具有可解释性的典型样本,这些样本既能暴露模型缺陷,又可作为无需标注的修正数据。在Gemma-3和PaliGemma-2等前沿模型上的实验表明,AuditDM成功识别出20余种失效类型。基于这些发现进行微调后,所有模型在16个基准测试中均实现持续提升,甚至使30亿参数模型超越其280亿参数的对照模型。我们的研究证明,当数据扩展收益递减时,定向模型审计为模型诊断与优化提供了有效路径。
时间序列数据在环境分析、农业、交通、金融等众多科学与工业领域具有关键意义。然而,从这类数据中挖掘洞见通常需要深厚的领域专业知识,这一过程既耗时又费力。本文提出Insight Miner——一个专为生成高质量、综合性时间序列描述而设计的大规模多模态模型,其描述内容融合了领域特定知识。为实现这一目标,我们推出了TS-Insights(数据集地址:\href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}),这是首个面向通用领域的时间序列与语言对齐数据集。TS-Insights包含从20个预测数据集中采样的10万个时间序列窗口,通过创新的智能体工作流构建:先使用统计工具从原始时间序列中提取特征,再通过GPT-4将其合成为连贯的趋势描述。在TS-Insights上进行指令微调后,Insight Miner在生成时间序列描述与洞见方面超越了LLaVA(liu2023llava)和GPT-4等最先进的多模态模型。我们的研究为利用多模态模型进行时间序列分析开辟了新方向,也为大语言模型将时间序列作为原生输入模态进行解读奠定了重要基础。
扩散变换器(DiTs)在视觉生成领域确立了最先进水平,但其二次方的自注意力计算成本从根本上限制了长令牌序列的扩展。近期Top-K稀疏注意力方法通过将令牌压缩为块状表示并选择少量相关关键块来减少DiTs计算量,但仍存在两大缺陷:(一)压缩令牌上的二次方选择成本;(二)随着序列增长,维持模型质量所需K值持续增加。我们发现其低效性源于单层级设计,因为单一粗粒度层级难以有效表征全局结构。本文提出对数线性稀疏注意力(LLSA),这是一种可训练的稀疏注意力机制,通过利用层次化结构将选择和注意力成本从二次方降至对数线性复杂度,适用于极长令牌序列。LLSA执行分层Top-K选择,基于前一层级发现的索引逐步采用稀疏Top-K选择,并引入分层键值增强机制,在注意力计算过程中使用更少不同粒度的令牌即可保持全局上下文。为支持高效训练,我们开发了高性能GPU实现方案,在前向和反向传播中仅使用稀疏索引,无需稠密注意力掩码。我们在不使用分块化和VAE编码的高分辨率像素空间图像生成任务上评估LLSA。在256x256像素令牌序列上,LLSA将注意力推理速度提升28.27倍,DiT训练速度提升6.09倍,同时保持生成质量。结果表明LLSA为高效训练长序列DiTs提供了可行路径。代码已开源:https://github.com/SingleZombie/LLSA
交互式应用中的神经渲染需要将几何与材质属性(G-buffer)逐帧转换为具有真实光照效果的光照真实图像。尽管当前基于扩散模型的方法在G-buffer条件图像合成方面展现出潜力,但仍存在关键局限:RGBX等单帧模型独立生成各帧而缺乏时间一致性,DiffusionRenderer等视频模型则因计算成本过高难以适配主流游戏设备,且需预先获取完整序列,无法满足用户输入决定后续帧的交互场景。我们提出FrameDiffuser——一种自回归神经渲染框架,通过联合G-buffer数据与模型自身历史输出来生成时间一致的光照真实帧。在完成首帧渲染后,该框架仅需输入包含几何、材质与表面属性的G-buffer数据,同时利用前序生成帧进行时序引导,可在数百至数千帧范围内保持稳定的时序一致性生成。我们的双条件架构融合了ControlNet的结构引导与ControlLoRA的时序连贯性控制,通过三阶段训练策略实现稳定自回归生成。该模型针对特定环境进行专门化训练,将一致性与推理速度置于泛化能力之上,实验表明相较于通用方法,环境定制化训练能实现更优异的光照真实感,精准还原光影与反射效果。
标准化流(Normalizing Flows, NFs)已成为生成建模的理论框架。标准NF包含前向过程与反向过程:前向过程将数据映射为噪声,而反向过程通过逆向映射生成样本。典型NF的前向变换受显式可逆性约束,确保反向过程可作为其精确解析逆。近期TARFlow及其变体通过结合Transformer与自回归流重振了NF方法,但也暴露出因果解码作为主要瓶颈的问题。本文提出双向标准化流(BiFlow),该框架无需精确解析逆运算。BiFlow通过学习近似底层噪声到数据逆映射的反向模型,实现了更灵活的损失函数与架构设计。在ImageNet上的实验表明,相较于因果解码方案,BiFlow在提升生成质量的同时将采样速度加快达两个数量级。该框架在基于NF的方法中取得了最优结果,并在单次评估("1-NFE")方法中展现出竞争力。随着NF领域近期取得的鼓舞进展,我们希望本研究能进一步引发对这一经典范式的关注。
尽管强化学习在语言模型推理领域已取得显著进展,但其发展始终受限于可验证奖励的需求。近期提出的免验证器强化学习方法通过利用语言模型生成参考答案的内在概率作为奖励信号,突破了这一限制。然而,这些方法通常仅基于问题本身对推理轨迹进行采样,该设计使得推理轨迹采样与答案信息相分离,导致探索效率低下以及轨迹与最终答案之间的不连贯性。本文提出耦合变分强化学习方法,通过混合采样策略将先验分布与后验分布相耦合,从而搭建起变分推断与强化学习之间的桥梁。通过构建并优化融合这两种分布的复合分布,该方法在保持强思维-答案连贯性的同时实现了高效探索。在数学推理与通用推理基准上的大量实验表明,该方法相比基线模型性能提升12.4%,较当前最强的免验证器强化学习基线模型进一步获得2.3%的性能提升,为增强语言模型的通用推理能力提供了理论框架。
三维角色姿态设定是计算机图形学与视觉领域的基础任务。然而,现有方法如自动骨骼绑定和姿态条件生成常面临蒙皮权重预测不准、拓扑结构缺陷及姿态贴合度差等挑战,制约了其鲁棒性与泛化能力。为突破这些局限,我们提出Make-It-Poseable——一种将角色姿态设定重构为隐空间变换问题的新型前馈框架。与传统流程中变形网格顶点不同,本方法通过直接操控隐式表征实现新姿态下的角色重建。其核心在于基于骨骼运动操控形状标记的隐式姿态变换器,辅以密集姿态表征实现精准控制。为确保高保真几何并适应拓扑变化,我们还引入了隐空间监督策略与自适应补全模块。本方法在姿态质量上展现出卓越性能,并可自然扩展到部件替换与精细化等三维编辑应用。
家庭移动机械臂需兼具导航与操作能力,这要求构建一种紧凑且语义丰富的场景表征,既能捕捉物体位置信息,又能反映其功能属性与可交互部件。场景图虽是天选之选,但现有研究往往割裂空间与功能关系、将场景视为缺乏物体状态或时序更新的静态快照,并忽视与当前任务最相关的信息。为此,我们提出MomaGraph——一种融合空间功能关系与部件级交互要素的具身智能体统一场景表征。然而,推进此类表征既需要适配数据又需严谨评估,这两方面长期缺失。我们由此贡献了MomaGraph-Scenes:首个面向家庭环境的大规模任务驱动精细标注场景图数据集,以及涵盖从高层规划到细粒度场景理解六项推理能力的系统化评估套件MomaGraph-Bench。基于此基础,我们进一步开发了MomaGraph-R1——一个通过强化学习在MomaGraph-Scenes上训练的70亿参数视觉语言模型。该模型能预测任务导向场景图,并在“先构图后规划”框架下实现零样本任务规划。大量实验表明,我们的模型在开源模型中达到最先进水平,在基准测试中准确率达71.6%(较最佳基线提升11.4%),同时能泛化至公共基准测试并有效迁移至真实机器人实验。
近期,多模态大语言模型(MLLMs)通过在语义空间中引入思维链(CoT)推理机制,显著提升了跨模态理解与推理能力。基于此,最新研究将CoT机制扩展至视觉模态,使模型能够借助外部工具或显式图像生成在推理过程中整合视觉信息。然而,这些方法仍依赖于显式的分步推理,存在感知-推理交互不稳定及显著计算开销的问题。受人类认知机制启发,我们认为思维并非线性展开,而是通过推理与感知在脑海中的动态交织推进。基于这一视角,我们提出DMLR——一种测试时动态多模态潜在推理框架,该框架采用置信度引导的潜在策略梯度优化方法,对潜在思维标记进行精细化深度推理。此外,我们引入动态视觉注入策略,在每一潜在思维标记处检索最相关的视觉特征并更新最佳视觉补丁集合,进而将更新后的补丁注入潜在思维标记,实现动态的视觉-文本交织。在七大跨模态推理基准及多种模型架构上的实验表明,DMLR在保持高推理效率的同时,显著提升了模型的推理与感知性能。
创造新颖的视觉概念往往需要通过图像最相关的共享属性——即其“氛围”——来连接不同概念。我们提出“氛围融合”这一新任务,旨在生成连贯且有意义的混合图像,以揭示图像间的共性特征。现有方法在识别并遍历潜空间中连接远距离概念的非线性路径时存在困难,而实现优质融合正面临这一挑战。为此我们构建了“氛围空间”,这是一种在CLIP等特征空间中学习低维测地线的分层图流形,能够实现概念间平滑且语义一致的过渡。为评估创意质量,我们设计了融合人类判断、大语言模型推理与基于几何路径的难度分数的认知启发式框架。实验表明,相较于现有方法,人类评价者一致认为氛围空间生成的融合图像更具创意与连贯性。
评估大型语言模型(LLM)生成的表格质量仍是一个开放性挑战:现有指标或将表格扁平化为文本而忽略结构,或依赖固定参考标准限制泛化能力。我们提出TabReX——一个基于属性驱动、无需参考的表格生成评估框架,通过图推理实现量化评估。该框架将源文本与生成表格转化为规范知识图谱,经由LLM引导的匹配流程实现对齐,最终输出可解释的、符合评估细则的分数,量化结构与事实保真度。该指标可在敏感度与特异性间实现可控权衡,生成与人类判断对齐的评估结果及单元格级错误追溯。为系统评估指标鲁棒性,我们构建TabReX-Bench大规模基准测试集,涵盖六大领域、十二种规划器驱动的扰动类型,并设置三个难度层级。实验表明TabReX与专家评分相关性最高,在强扰动下保持稳定,支持细粒度的模型vs提示词分析,为结构化生成系统建立了可信可解释评估的新范式。
递归Transformer中的参数共享虽能缩减模型规模,却会导致层间表达能力退化。我们提出LoRA混合专家模型(MoL),这是一种轻量级条件计算机制,通过在共享前馈网络(FFN)内部插入低秩自适应(LoRA)专家模块来实现参数空间的条件调控。与以往添加固定或外部适配器的方法不同,MoL能在保持主干参数绑定的前提下,实现基于令牌条件的共享FFN权重空间调制。我们预训练了现代化递归架构ModernALBERT,融合了旋转位置编码、GeGLU激活函数、FlashAttention注意力机制以及基于蒸馏的初始化策略。在GLUE、SQuAD-v2和BEIR基准测试中,ModernALBERT(50M-120M参数)在紧凑模型中达到最优性能,并超越完全参数化的大型基线模型。我们还提出专家融合方法,在推理时将MoL压缩为单一适配器且保持精度,实现高效部署。实验结果表明,条件权重空间调制能有效恢复递归Transformer在激进参数共享下损失的表达能力。
视觉情感理解(VEC)旨在从图像蕴含的情感线索中推断情感极性或情绪类别。近年来,多模态大语言模型(MLLMs)通过其泛化能力统一了不同情绪分类体系下的VEC任务,建立了该领域的主流范式。尽管该范式取得显著成效,但通常将VEC视为确定性任务,要求模型为每张图像输出单一确定的情感标签。这种设定未能充分考虑情感感知固有的主观性,忽略了对于不同观察者可能同样合理的替代性解读。为解决这一局限,我们提出为MLLMs配备情感预测置信度表达能力。这种附加信号可同时为用户提供替代解读的合理性评估及模型的自省能力,从而提升实际应用的可靠性。基于此洞见,我们设计了三阶段训练框架:逐步赋予结构化推理能力、训练置信度表达、校准置信度输出,最终构建出面向VEC的置信度感知模型EmoCaliber。通过在统一基准VECBench上的公平全面评估,EmoCaliber在情感预测与置信度估计方面均展现出对现有方法的整体优势。这些结果验证了我们方法的有效性,并为构建更可靠的VEC系统迈出可行一步。项目页面:https://github.com/wdqqdw/EmoCaliber。
高质量数学推理监督需要多样化的推理风格、长篇幅解题轨迹以及有效的工具集成能力,而现有数据集仅能有限提供这些要素。依托gpt-oss-120b的多模式生成能力,我们推出Nemotron-Math——一个包含750万条解题轨迹的大规模数学推理数据集,涵盖高、中、低三种推理模式,每种模式均提供含Python工具集成推理与不含工具集的版本。 该数据集整合了8.5万道精编AoPS试题与26.2万道社区来源的StackExchange-Math问题,将结构化竞赛任务与多样化的真实数学问题相结合。我们通过受控评估验证数据集质量:在匹配的AoPS问题上,Nemotron-Math持续超越原版OpenMathReasoning;引入StackExchange-Math数据显著提升了模型鲁棒性和泛化能力(尤其在HLE-Math任务中),同时保持数学竞赛基准的准确率。 为支持高效长上下文训练,我们开发了顺序分桶策略,使128K上下文长度的微调加速2-3倍且无显著精度损失。总体而言,Nemotron-Math实现了最先进性能,包括在使用Python工具集成推理时,在AIME 2024和2025竞赛中达到100% maj@16准确率。
大型语言模型(LLM)的兴起催生了一种新型编程范式:自然语言编程。通过编写提示词来引导LLM执行自然语言处理、代码生成、推理等任务,用户实际上是在用自然语言编写代码——即自然语言代码——供LLM执行。 新兴研究领域正致力于实现自然语言代码与Python等形式化语言之间的互操作性。我们提出了一种新颖的编程抽象概念——共享程序状态,该概念消除了实现自然语言代码与程序状态互操作性所需的人工操作。借助共享程序状态,程序员能够编写直接操作程序变量、计算程序对象、实现程序控制流的自然代码。我们提出了一套规范自然函数接口的架构,该架构可扩展编程系统以支持自然代码,并利用此架构将共享程序状态定义为自然函数接口。 我们在Nightjar编程系统中实现了共享程序状态。该系统支持程序员编写包含自然代码的Python程序,这些自然代码可直接共享Python程序状态。实验表明,Nightjar程序在任务准确率上达到甚至超过手动编写实现的水平(提升4-19%),同时平均减少39.6%的代码行数。使用Nightjar的代价是可能产生运行时开销(达到手动实现运行时间的0.4-4.3倍)。