每日精選AI研究論文及翻譯
我們推出Kling-Omni——一個通用型生成式框架,專為從多模態視覺語言輸入直接合成高擬真度影片而設計。該框架採用端到端視角,將多樣化的影片生成、編輯與智能推理任務功能有機融合,構建成統一系統。有別於割裂的流水線式方案,Kling-Omni支援文字指令、參考圖像、影片上下文等多類用戶輸入,將其處理為統一的多模態表徵,實現具電影級畫質與高度智能化的影片內容創作。為支撐這些能力,我們構建了完備的數據系統作為多模態影片創作的基礎。該框架還通過高效的大規模預訓練策略與推論基礎設施優化得到強化。綜合評估表明,Kling-Omni在情境化生成、基於推理的編輯及多模態指令遵循方面展現卓越能力。我們認為Kling-Omni不僅是內容創作工具,更是邁向多模態世界模擬器的關鍵突破,該模擬器能感知、推理、生成並與動態複雜世界進行互動。
尖端的主體性人工智慧系統建立在基礎模型之上,這些模型可被調整用於規劃、推理及與外部工具互動,以執行日益複雜且專業化的任務。隨著此類系統在能力與應用範圍上的擴展,適應性機制已成為提升效能、可靠性與泛化能力的核心關鍵。本文將快速擴展的研究領域整合為系統性框架,涵蓋主體適應與工具適應兩大維度,並進一步將其分解為「工具執行信號觸發」與「主體輸出信號觸發」兩類主體適應模式,以及「主體無關」與「主體監督」兩類工具適應模式。我們證明此框架能清晰界定主體性AI適應策略的設計空間,明確揭示其權衡取捨,並為系統設計階段的策略選擇與切換提供實用指引。接著回顧各類別的代表性方法,剖析其優勢與局限,並指出關鍵的開放性挑戰與未來機遇。總體而言,本文旨在為建構更強大、高效且可靠的主體性AI系統的研究者與實踐者,提供概念基礎與實踐路線圖。
本文提出LLaDA2.0——通過從自回歸模型進行系統化轉換構建的離散擴散大型語言模型元組,其總參數規模達1000億,為前沿規模部署建立了新範式。該方法摒棄成本高昂的從頭訓練,秉持知識繼承、漸進適應與效率優先的設計原則,通過創新的三階段基於塊級WSD的訓練方案(包含塊擴散中逐步增大塊尺寸的預熱階段、大規模全序列擴散的穩定階段、以及回歸緊湊塊擴散的衰減階段),實現預訓練AR模型向dLLM的無縫轉換。結合SFT和DPO的訓練後對齊,我們得到LLaDA2.0-mini(160億參數)與LLaDA2.0-flash(1000億參數)兩個經過指令調優的混合專家模型變體,專為實際部署優化。這些模型在保留並行解碼優勢的同時,於前沿規模實現了卓越的性能與效率。兩款模型均已開源。
受到生成式預訓練在自然語言領域成功的啟發,我們探討相同原理能否培育出強大的自監督視覺學習器。有別於訓練模型輸出特徵供下游任務使用,我們訓練模型直接生成能執行預測任務的嵌入表徵。本研究探索這種從學習表徵到學習模型的轉變——具體而言,模型透過因果遮罩與梯度截斷技術(我們稱之為「下一嵌入預測自回歸」NEPA),學習根據過往圖塊嵌入來預測未來嵌入。我們證實,僅以下一嵌入預測為單一學習目標、在ImageNet-1k上預訓練的簡單Transformer模型即可實現卓越效果,無需像素重建、離散符號、對比損失或任務特定頭部。此方法在保持架構簡潔性與擴展性的同時,無需引入額外設計複雜度。NEPA在各項任務中表現優異:經微調後,採用ViT-B與ViT-L骨幹的模型在ImageNet-1K上分別達到83.8%與85.3%的top-1準確率,並能有效遷移至ADE20K的語義分割任務。我們認為基於嵌入的生成式預訓練,為視覺自監督學習提供了一種簡潔、可擴展且潛在跨模態通用的替代方案。
立體顯示技術(包括VR頭戴裝置與3D影院)的快速發展,對高品質立體影片內容的需求日益增長。然而,3D影片製作仍面臨成本高昂與流程複雜的挑戰,而基於多階段「深度-扭曲-修補」流程的自動單目轉立體方法,則受困於誤差傳遞、深度歧義性,以及平行與交會式立體配置間的格式不一致等問題。為解決這些難題,我們提出首個大規模統一立體影片轉換數據集UniStereo,涵蓋兩種立體格式以實現公平基準測試與魯棒模型訓練。基於此數據集,我們進一步設計StereoPilot模型——一種無需依賴顯式深度圖或迭代擴散採樣的高效前饋模型,能直接合成目標視角。該模型配備可學習的域切換器與循環一致性損失,可無縫適應不同立體格式並提升一致性。大量實驗表明,StereoPilot在視覺保真度與計算效率上均顯著優於現有頂尖方法。項目頁面:https://hit-perfect.github.io/StereoPilot/。
近期視訊生成領域的突破性進展為統一的視聽生成開闢了新路徑。本研究推出Seedance 1.5 pro——一款專為原生視聽聯合生成設計的基礎模型。該模型採用雙分支擴散轉換器架構,通過跨模態聯合模組與專業級多階段數據管線的協同整合,實現了卓越的視聽同步效果與頂級生成品質。為確保實用性,我們實施了精細化的訓練後優化策略,包括基於高質量數據集的監督微調,以及結合多維度獎勵模型的人類反饋強化學習。此外,我們還引入了加速框架,使推理速度提升逾10倍。Seedance 1.5 pro憑藉其精準的多語言及方言唇形同步、動態電影級鏡頭控制,以及強化敘事連貫性等特性,成為專業級內容創作的強勁引擎。該模型現已登陸火山引擎平台:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo。
本研究提出了一種全景測距深度基礎模型,能夠泛化適用於不同場景距離。我們從數據建構與框架設計雙重視角探索了數據驅動的閉環範式。通過整合公開數據集、基於UE5模擬器生成的高質量合成數據、文本生成圖像模型產出的數據,以及從網絡採集的全景實景圖像,我們構建了大型數據集。為縮小室內/室外與合成/真實數據間的領域差距,我們設計了三階段偽標註提純流程,為未標註圖像生成可靠的真實深度標籤。模型方面,採用具備強大預訓練泛化能力的DINOv3-Large作為骨幹網絡,並創新性地引入即插即用的距離遮罩頭、以銳度為核心的優化策略及以幾何一致性為核心的優化方法,從而提升模型對不同距離的魯棒性並強化多視角間的幾何約束。在多個基準測試(如Stanford2D3D、Matterport3D和Deep360)上的實驗表明,該模型不僅具有優異性能與零樣本泛化能力,更能於各類真實場景中實現魯棒且穩定的測距深度預測。項目頁面詳見:https://insta360-research-team.github.io/DAP_website/
在攝影領域,景深控制至關重要,但獲得完美對焦往往需要多次嘗試或特殊設備。單圖像重對焦技術仍面臨挑戰,其涉及恢復清晰內容與創造自然散景兩大難題。現有方法存在明顯缺陷:需要全對焦輸入圖像、依賴模擬器生成的合成數據,且對光圈控制能力有限。我們提出生成式重對焦技術,採用DeblurNet從各類輸入恢復全對焦圖像,再通過BokehNet實現可控散景的兩步流程。核心創新在於半監督訓練法,該方法融合合成配對數據與未配對真實散景圖像,利用EXIF元數據捕捉模擬器無法提供的真實光學特性。實驗表明,我們的模型在散焦去模糊、散景合成和重對焦基準測試中均達到頂尖水平。此外,生成式重對焦技術還支持文字引導調整與自定義光圈形狀功能。
情境感知擴散模型讓使用者能夠以驚人的簡易度和真實感修改圖像。然而這種強大能力也引發嚴重的隱私疑慮:個人圖像可在未經所有者同意的情況下,輕易被用於身份冒充、散佈虛假信息或其他惡意用途。雖然先前研究曾探討透過輸入擾動來防範個人化文字生成圖像的濫用,但現代大規模基於DiT的情境感知模型之魯棒性仍鮮被檢視。本文提出DeContext——一種保護輸入圖像免遭未授權情境編輯的新方法。我們的核心洞見在於:源圖像的情境信息主要透過多模態注意力層傳播至輸出結果。透過注入微小且具針對性的擾動來削弱這些跨注意力路徑,DeContext能中斷此傳播流程,有效切斷輸入與輸出之間的連結。這種簡潔的防禦機制兼具效率與魯棒性。我們進一步證明,早期去噪步驟與特定轉換器區塊主導著情境傳播,使我們能將擾動集中於關鍵區域。在Flux Kontext和Step1X-Edit上的實驗表明,DeContext能持續阻擋非預期的圖像編輯,同時保持視覺品質。這些結果凸顯了基於注意力機制的擾動作為對抗圖像篡改的有效防禦手段。
近期,文本到图像生成模型(如Imagen、Stable Diffusion和FLUX)的技术突破显著提升了视觉质量。然而,其性能根本上受限于训练数据的质量。网络爬取和合成图像数据集中常包含低质量或冗余样本,导致视觉保真度下降、训练过程不稳定及计算效率低下。因此,高效的数据筛选对提升数据利用率至关重要。现有方法依赖于高成本的人工筛选或基于单维特征的启发式评分机制进行文本-图像数据过滤。尽管元学习方法已在大型语言模型领域有所探索,但尚未适配图像模态。为此,我们提出**Alchemist**——一个基于元梯度的框架,用于从大规模文本-图像对中筛选最优数据子集。该方法通过数据中心的迭代优化,自动学习评估每个样本的影响力。Alchemist包含两个核心阶段:数据评级与数据剪枝。我们训练轻量级评级器,基于多粒度感知增强的梯度信息估算样本影响力,继而采用Shift-G采样策略筛选信息丰富的子集以提升模型训练效率。Alchemist是首个面向文本到图像模型训练的自动化、可扩展的元梯度数据筛选框架。在合成与网络爬取数据集上的实验表明,该框架能持续提升视觉质量与下游任务性能:使用Alchemist筛选的50%数据训练模型,效果可超越全数据集训练。
我们推出WorldCanvas——一个可提示世界事件的框架,该框架通过融合文本、运动轨迹和参考图像,实现丰富的用户导向式模拟。与纯文本方法及现有轨迹控制的图像转视频技术不同,我们的多模态方案将编码运动、时序和可见性的轨迹,与表达语义意图的自然语言、奠定物体视觉特征的参考图像相结合,从而生成包含多智能体交互、物体进出场、参考图像引导的外观呈现及反直觉事件的连贯可控事件。生成视频不仅展现时序连贯性,更具备涌现一致性,能在物体暂时消失后仍保持其身份特征与场景稳定性。通过支持富有表现力的世界事件生成,WorldCanvas将世界模型从被动预测器推进为可交互的用户定制模拟器。项目页面详见:https://worldcanvas.github.io/。
潛在擴散模型(LDMs)在圖像合成領域已實現最先進水平,但其重建式去噪目標僅提供間接的語義監督:高層語義緩慢湧現,需更長訓練時間且限制樣本品質。近期研究通過表徵對齊從外部注入視覺基礎模型(VFMs)的語義,或僅在擴散過程內部聯合建模狹窄的VFM特徵切片,未能充分利用其豐富、非線性、多層次的空間語義。我們提出REGLUE(全域-局部統一編碼的表徵糾纏框架),在單一SiT骨幹網中聯合建模(i)VAE圖像潛變量、(ii)緊湊的局部(圖塊級)VFM語義,以及(iii)全域(圖像級)[CLS]標記。輕量級卷積語義壓縮器將多層VFM特徵非線性聚合為低維度空間結構化表徵,並在擴散過程中與VAE潛變量形成糾纏。外部對齊損失進一步將內部表徵正則化至凍結的VFM目標。在ImageNet 256×256數據集上,REGLUE相較SiT-B/2與SiT-XL/2基線模型,以及REPA、ReDi和REG方法,持續提升FID指標並加速收斂。大量實驗表明:(a)空間VFM語義至關重要,(b)非線性壓縮是釋放其全部效益的關鍵,(c)在全域-局部-潛變量聯合建模框架中,全域標記與外部對齊可作為互補的輕量級增強機制。程式碼已開源於:https://github.com/giorgospets/reglue。
当前的多模态模型虽能基于二维图像回答问题,却缺乏对三维物体的本质感知能力,这限制了其理解三维场景中空间关系与深度信息的能力。本研究提出N3D-VLM这一创新统一框架,将原生三维物体感知与三维视觉推理无缝融合,既能实现精确的三维定位,又可达成可解释的空间理解。相较于传统端到端模型直接通过RGB/RGB-D输入预测答案的方法,我们的方案赋予模型原生三维物体感知能力,使其能根据文本描述直接在三维空间中定位物体。基于精准的三维物体定位,模型进一步在三维空间进行显式推理,实现更具可解释性和结构化的空间理解。为支撑这些能力的稳健训练,我们开发了可扩展的数据构建流程,通过深度估计将大规模二维标注提升至三维空间,显著增强三维物体定位数据的多样性和覆盖范围,生成的数据集规模达到现有最大单图像三维检测数据集的六倍以上。该流程还生成了针对三维思维链推理的空间问答数据集,为三维物体定位与空间推理的联合训练提供支持。实验结果表明,我们的统一框架不仅在三维定位任务上达到最先进性能,在视觉语言模型的三维空间推理方面也持续超越现有方法。
大型语言模型强化学习的最新进展正日益趋向复杂化:多阶段训练流程、动态超参数调度以及课程学习策略。这引发了一个根本性问题:此种复杂性是否必要?我们提出JustRL方案,采用固定超参数的单一阶段极简训练法,在两个15亿参数推理模型上取得顶尖性能(在九项数学基准测试中平均准确率分别达54.9%和64.3%),同时计算消耗比复杂方法减少三分之二。相同超参数无需调优即可跨模型迁移,且持续4000多步的训练过程呈现平滑单调的提升曲线,未出现通常需要干预的崩溃或平台期。关键的是,消融实验表明,添加显式长度惩罚和鲁棒验证器等"标准技巧"反而可能因压制探索欲而降低性能。这些结果暗示领域内可能正在通过增加复杂性来解决本会随稳定扩增的基线而消失的问题。我们公开模型与代码,旨在为学界建立一个经过验证的简易基线。
最新研究表明,多模态大语言模型(MLLMs)能够通过结合视觉工具交互的多模态交织思维链(CoT)获得性能提升。然而,现有开源模型常表现出盲目的工具使用推理模式,即使在无需视觉工具的情况下也会调用,这不仅显著增加推理开销,还会降低模型性能。为此,我们提出AdaTooler-V——一种能通过判断视觉问题是否真正需要工具来实现自适应工具调用的MLLM。首先,我们引入AT-GRPO强化学习算法,该算法根据每个样本的"工具效益评分"自适应调整奖励尺度,激励模型仅在工具能带来实质改进时调用。此外,我们构建了两个训练支持数据集:包含10万样本的AdaTooler-V-CoT-100k用于监督微调冷启动,以及30万样本的AdaTooler-V-300k用于在单图像、多图像和视频数据上实现可验证奖励的强化学习。在十二个基准测试上的实验表明,AdaTooler-V具备强大的推理能力,在多样化视觉推理任务中超越现有方法。值得注意的是,AdaTooler-V-7B在高分辨率基准V*上达到89.8%的准确率,超越了商用闭源模型GPT-4o和Gemini 1.5 Pro。所有代码、模型及数据均已开源。
尽管图像编辑技术发展迅猛,视频编辑领域仍处于探索不足的状态,面临一致性、可控性与泛化能力等挑战。本研究系统探索了数据、架构与控制三个维度的设计空间,提出EasyV2V这一基于指令的简易高效视频编辑框架。在数据层面,我们通过组合现有专家模型与快速逆变换构建多样化视频对,借助单帧监督与共享仿射运动的伪配对将图像编辑对提升至视频维度,挖掘密集标注视频片段生成视频训练对,并引入转场监督机制以指导编辑过程的动态呈现。模型架构方面,我们发现预训练文生视频模型本身具备编辑潜力,由此提出简化设计:仅需通过序列拼接实现条件控制,配合轻量级LoRA微调即可训练出强大模型。控制机制上,我们通过统一掩码机制实现时空联合控制,并支持可选参考图像输入。整体而言,EasyV2V支持灵活输入组合(如视频+文本、视频+掩码+文本、视频+掩码+参考图+文本),在视频编辑效果上达到业界最优水平,超越同期研究成果及商业系统。项目页面:https://snap-research.github.io/easyv2v/
当前基于扩散模型的长篇幅人像动画加速方法难以确保身份特征的稳定性。本文提出FlashPortrait——一种能合成保持身份特征、无限长度视频的端到端视频扩散变换器,其推理速度最高可提升6倍。该技术首先通过现成特征提取器计算身份无关的面部表情特征,继而引入标准化面部表情模块,通过各自均值方差对特征进行归一化处理,使面部特征与扩散潜空间对齐,从而提升面部建模的身份稳定性。在推理阶段,采用动态滑动窗口机制配合重叠区域加权融合策略,确保长动画的平滑过渡与身份一致性。在每个上下文窗口中,基于特定时间步的潜变量变化率及扩散层间导数幅值比,利用当前时间步的高阶潜导数直接预测未来时间步的潜变量,从而跳过多个去噪步骤实现6倍加速。基准测试表明,FlashPortrait在定性与定量评估中均展现出卓越性能。
獎勵模型(RM)在訓練大型語言模型(LLM)中至關重要,但對於處理交錯圖像與文本序列的全能模型而言,其研究仍顯不足。我們推出多模態獎勵基準2(MMRB2),這是首個針對多模態理解與(交錯式)生成任務的獎勵模型綜合基準。MMRB2涵蓋四項任務:文本生成圖像、圖像編輯、交錯生成及多模態推理(「圖像化思考」),每項任務提供來自23個模型與智能體、跨越21項源任務的1,000組專家標注偏好對。MMRB2的設計特點包括:(1)實用且具挑戰性的提示;(2)來自頂尖模型與智能體的回應;(3)通過集成過濾策略篩選、具備強烈人類專家共識的偏好對。利用MMRB2,我們針對各子任務評估現有評判器,包括多模態LLM即時評判器及經人類偏好訓練的模型。最新Gemini 3 Pro準確率達75-80%,GPT-5與Gemini 2.5 Pro準確率為66-75%(人類準確率>90%),但仍優於廣泛使用的GPT-4o(59%)。表現最佳的開源模型Qwen3-VL-32B達到與Gemini 2.5 Flash相近的準確率(64%)。我們亦證實MMRB2表現與基於Best-of-N採樣的下游任務成功率高度相關,並透過深入分析指出獎勵模型未來需改進的關鍵領域。
本文研究了具有可验证奖励的强化学习(RLVR)中的探索-利用权衡问题,该框架旨在提升大型语言模型(LLM)的推理能力。近期研究表明,RLVR可通过两种看似矛盾的机制激发LLM强大的数学推理能力:伪奖励(通过奖励与真实答案无关的结果来抑制利用行为)和熵最小化(通过推动模型产生更自信的确定性输出来抑制探索行为)。这一矛盾动态凸显出令人费解的现象:抑制利用与抑制探索均能提升推理性能,但调和这两种效应的内在原理尚不明确。我们聚焦两个核心问题:(i)策略熵如何关联性能表现;(ii)伪奖励是否通过裁剪偏差与模型污染的相互作用产生增益。实验结果表明,伪奖励下的裁剪偏差会降低策略熵,从而产生更自信的确定性输出,而仅靠熵最小化并不足以实现性能提升。我们进一步提出奖励错配模型,阐释了伪奖励为何能在非污染场景下提升性能。本研究阐明了伪奖励获益的内在机制,并为更有效的RLVR训练提供了理论依据。
基于指令的图像编辑技术实现了对视觉修改的自然语言控制,但现有模型在处理指令-视觉复杂度(IV-Complexity)时表现不佳——即当复杂指令遇到杂乱或模糊场景时。我们提出RePlan(区域对齐规划),一种“先规划后执行”的框架,将视觉语言规划器与扩散编辑器相结合。规划器通过逐步推理分解指令,并将其显式定位至目标区域;编辑器随后采用无需训练的注意力区域注入机制实施修改,无需迭代修复即可实现精准、并行的多区域编辑。为增强规划能力,我们基于GRPO强化学习算法,使用仅含1K纯指令样本进行训练,显著提升了推理准确性与格式可靠性。我们还推出IV-Edit基准测试集,专注于细粒度定位和知识密集型编辑任务。在IV-Complex场景下,RePlan持续超越基于海量数据训练的强基线模型,在区域精度和整体保真度上均实现提升。项目页面:https://replan-iv-edit.github.io
我们推出ModelTables——一个针对模型湖中表格的基准数据集,该数据集捕捉了常被纯文本检索忽略的性能配置表的结构化语义。该语料库构建自Hugging Face模型卡片、GitHub自述文件及参考文献,将每个表格与其所处的模型及论文语境相关联。与开放数据湖表格相比,模型表格规模更小但呈现更密集的跨表关联,反映出紧密耦合的模型与基准演进脉络。当前版本涵盖超6万个模型和9万张表格。为评估模型与表格关联度,我们采用三种互补信号构建多源基准真值:(1)论文引用链,(2)显式模型卡片链接与继承关系,(3)共享训练数据集。我们以表格搜索为例开展深入实证研究,在基准测试中对比经典数据湖搜索运算符(可并集、可连接、关键词)与信息检索基线方法(稠密检索、稀疏检索、混合检索)。基于并集语义的表格检索总体P@1达54.8%(引用信号54.6%,继承信号31.3%,共享数据集信号30.6%);基于表格的稠密检索达到66.5% P@1,元数据混合检索为54.1%。评估结果表明表格搜索方法存在明显改进空间。通过开源ModelTables及其构建流程,我们首次提供了描述AI模型的大规模结构化数据基准。模型湖中的表格发现用例为开发更精准的语义检索、结构化比较及模型知识的系统化组织提供了实证依据。相关源代码、数据及其他材料已发布于https://github.com/RJMillerLab/ModelTables。
图形用户界面(GUI) grounding 是构建高效能 GUI 智能体的关键组成部分。然而,现有的 grounding 基准测试存在显著局限性:它们要么提供的数据量不足且领域覆盖狭窄,要么过度聚焦单一平台并需要高度专业化的领域知识。本研究提出 VenusBench-GD——一个跨平台、双语言的综合性 GUI grounding 基准测试,支持面向实际应用的分层评估。该基准的贡献包括:(i)推出覆盖广泛应用程序、多样化 UI 元素及丰富标注数据的大规模跨平台基准;(ii)建立了面向 grounding 任务的高质量数据构建流程,标注准确率超越现有基准;(iii)通过提出分层任务分类法将 grounding 划分为基础与高级两大类别,涵盖六个旨在从互补视角评估模型的子任务,从而扩展了元素 grounding 的范畴。实验发现揭示了关键洞察:通用多模态模型在基础 grounding 任务上已媲美甚至超越专用 GUI 模型,而高级任务仍更适用于 GUI 专用模型,尽管后者存在明显过拟合和鲁棒性不足的问题。这些结果印证了构建全面多层次评估框架的必要性。
随着大型语言模型(LLM)的应用范畴突破文本领域,将语音作为原生模态进行整合催生了SpeechLLM模型。这类模型旨在直接翻译口语,从而绕开传统的基于转写的处理流程。然而,这种整合是否比成熟的级联架构更能提升语音到文本的翻译质量,仍是待解之谜。我们提出"Hearing to Translate"——首个全面测试框架,通过严格基准测试将5种前沿SpeechLLM模型与16个强效的直接/级联系统进行对比,后者融合了领先的语音基础模型(SFM)与多语言LLM。我们的分析涵盖16个基准数据集、13种语言对和9种挑战性场景(包括不连贯语音、含噪语音及长语音)。在这项广泛评估中,我们发现级联系统整体上仍是最可靠的方案,而当前SpeechLLM仅在特定场景下与级联系统表现相当,SFM则落后于两者。这凸显出无论是模型内部整合还是流程管道整合,引入LLM对实现高质量语音翻译都至关重要。
传统多模态大语言模型(MLLM)的评估方法缺乏可解释性,往往难以充分揭示模型间的显著能力差距。为此,我们提出AuditDM——一种通过审计模型分歧主动发现并修正MLLM失效模式的自动化框架。该框架通过强化学习微调MLLM作为审计器,使其生成能最大化目标模型间分歧的挑战性问题和反事实图像。训练完成后,审计器可发掘出大量具有可解释性的典型样本,这些样本既能暴露模型缺陷,又可作为免标注数据用于模型修正。在Gemma-3和PaliGemma-2等前沿模型上的实验表明,AuditDM成功识别出20余种失效类型。基于这些发现进行微调后,所有模型在16个基准测试中均取得稳定提升,甚至使30亿参数模型反超其280亿参数版本。我们的研究证明,当数据扩展收益递减时,定向模型审计能为模型诊断与改进提供有效路径。
时间序列数据在环境分析、农业、交通和金融等众多科学与工业领域具有关键作用。然而从这类数据中挖掘洞见通常需要深厚的领域专业知识,这一过程既耗时又费力。本文提出Insight Miner——一个专为生成高质量、综合性时间序列描述而设计的大规模多模态模型,其描述内容融合了领域特定知识。为支持该模型,我们推出了TS-Insights(数据集获取地址:https://huggingface.co/datasets/zhykoties/time-series-language-alignment),这是首个面向通用领域的时间序列与语言对齐数据集。该数据集包含从20个预测数据集中采样的10万个时间序列窗口,通过创新的智能体工作流构建:先使用统计工具从原始时间序列中提取特征,再通过GPT-4将其合成为连贯的趋势描述。在TS-Insights上进行指令微调后,Insight Miner在生成时间序列描述与洞见方面超越了LLaVA(liu2023llava)和GPT-4等最先进的多模态模型。我们的研究为利用多模态模型进行时间序列分析开辟了新方向,并为实现大语言模型将时间序列作为原生输入模态的能力奠定了重要基础。
扩散变换器(DiTs)在视觉生成领域确立了技术标杆,但其二次方的自注意力计算成本从根本上限制了向长令牌序列的扩展。近期提出的Top-K稀疏注意力方法通过将令牌压缩为块状表示并选择少量相关关键块来减少DiT计算量,但仍存在两大缺陷:(i)压缩令牌上的二次方选择成本;(ii)随着序列增长,维持模型质量所需K值持续增加。我们发现其低效性源于单层级设计——单一粗粒度层级无法充分表征全局结构。本文提出对数线性稀疏注意力(LLSA),这是一种可训练的稀疏注意力机制,通过利用层次化结构将选择和注意力成本从二次方降至对数线性复杂度,适用于极长令牌序列。LLSA执行分层Top-K选择,基于前一层级发现的索引逐步采用稀疏Top-K选择,并引入分层键值增强机制,在注意力计算过程中使用更少不同粒度的令牌即可保持全局上下文。为支持高效训练,我们开发了高性能GPU实现方案,在前向和反向传播中仅使用稀疏索引,无需稠密注意力掩码。我们在未使用分块化和VAE编码的高分辨率像素空间图像生成任务上评估LLSA。在256x256像素令牌序列上,LLSA将注意力推理速度提升28.27倍,DiT训练速度提升6.09倍,同时保持生成质量。结果表明LLSA为高效训练长序列DiT提供了可行路径。代码已开源:https://github.com/SingleZombie/LLSA
面向交互应用的神经渲染技术需逐帧将几何与材质属性(G缓冲区)转换为具有真实光照效果的逼真图像。尽管当前基于扩散模型的方法在G缓冲区条件化图像合成方面展现出潜力,但仍存在关键局限:RGBX等单帧模型因独立生成各帧而缺乏时间一致性;DiffusionRenderer等视频模型则因计算成本过高难以适配多数消费级游戏设备,且需预先获取完整序列,无法满足用户输入决定后续帧的交互场景需求。我们提出FrameDiffuser——一种自回归神经渲染框架,通过联合利用G缓冲区数据与模型自身历史输出来生成时间连贯的逼真帧序列。在完成首帧渲染后,该框架仅需输入包含几何、材质及表面属性的G缓冲区数据,同时以自生成的前一帧作为时序引导,即可实现数百至数千帧的稳定连贯生成。我们的双条件架构融合了ControlNet的结构引导与ControlLoRA的时序一致性控制能力,并通过三阶段训练策略实现稳定的自回归生成。该模型针对特定环境进行专门化训练,以一致性和推理速度优先于泛化能力,实践证明相较于通用方法,环境专向训练能在光照、阴影和反射等细节上实现更优越的逼真度。
标准化流(Normalizing Flows, NFs)已成为生成建模的理论框架。标准NF由前向过程与反向过程构成:前向过程将数据映射为噪声,而反向过程通过其逆变换生成样本。典型NF的前向变换受显式可逆性约束,确保反向过程能作为其精确解析逆。TARFlow及其变体的最新进展通过结合Transformer与自回归流重振了NF方法,但也暴露出因果解码作为主要瓶颈的问题。本文提出双向标准化流(BiFlow),该框架无需精确解析逆运算。BiFlow通过学习近似底层噪声-数据逆映射的反向模型,实现了更灵活的损失函数与架构设计。在ImageNet上的实验表明,相较于因果解码方案,BiFlow在将采样速度提升最高两个数量级的同时改善了生成质量。该框架在基于NF的方法中取得了最优结果,并在单次评估("1-NFE")方法中展现出竞争力。随着NF领域近期取得的鼓舞进展,我们希望本研究能进一步引发对这一经典范式的关注。
尽管强化学习在语言模型推理领域取得了显著进展,但其发展仍受限于可验证奖励的要求。近期出现的无验证器强化学习方法通过利用大语言模型生成参考答案的内在概率作为奖励信号,突破了这一限制。然而,这些方法通常仅基于问题对推理轨迹进行采样,这种设计使推理轨迹采样与答案信息相分离,导致探索效率低下以及轨迹与最终答案间缺乏连贯性。本文提出耦合变分强化学习(CoVRL),通过混合采样策略耦合先验分布与后验分布,搭建起变分推断与强化学习之间的桥梁。通过构建并优化融合这两种分布的复合分布,CoVRL在保持强思维-答案连贯性的同时实现了高效探索。在数学推理和通用推理基准上的大量实验表明,CoVRL相较基线模型性能提升12.4%,较当前先进的无验证器强化学习基线方法额外提升2.3%,为增强语言模型的通用推理能力提供了理论框架。
三维角色姿态设定是计算机图形学与视觉领域的基础任务。然而现有方法如自动骨骼绑定和姿态条件生成常面临蒙皮权重预测不准、拓扑结构缺陷及姿态贴合度差等挑战,制约了其鲁棒性与泛化能力。为突破这些局限,我们提出Make-It-Poseable这一创新前馈框架,将角色姿态设定重新定义为隐空间变换问题。与传统流程中变形网格顶点不同,我们的方法通过直接操控隐表征来重建新姿态下的角色。其核心是基于骨骼运动操控形状标记的隐空间姿态变换器,辅以密集姿态表征实现精准控制。为确保高保真几何并适应拓扑变化,我们还引入了隐空间监督策略与自适应补全模块。本方法在姿态质量上展现出卓越性能,并能自然扩展到部件替换与精细化等三维编辑应用。
家用移动机械臂需兼具导航与操作能力,这要求建立紧凑且语义丰富的场景表征系统,能同时捕捉物体位置、功能属性及可操作部件。场景图虽是天选之选,但现有研究往往割裂空间与功能关系、将场景视为缺乏物体状态或时序更新的静态快照,并忽视与当前任务最相关的信息。为突破这些局限,我们提出MomaGraph——一种融合空间功能关系与部件级交互要素的具身智能体统一场景表征。然而推进该表征体系既需要适配数据也需严谨评估,这两者长期缺位。为此我们贡献了MomaGraph-Scenes:首个包含丰富标注的家居环境任务驱动场景图大规模数据集,以及涵盖从高层规划到细粒度场景理解六项推理能力的系统化评估套件MomaGraph-Bench。基于此,我们进一步开发了经强化学习训练的70亿参数视觉语言模型MomaGraph-R1。该模型能预测任务导向场景图,并在"先构图后规划"框架下实现零样本任务规划。大量实验表明,我们的模型在开源模型中达到最先进水平,在基准测试中准确率达71.6%(较最佳基线提升11.4%),同时在公共基准上展现良好泛化能力,并能有效迁移至真实机器人实验。
近期多模態大型語言模型(MLLM)的突破性進展,通過在語義空間中引入思維鏈(CoT)推理機制,顯著提升了跨模態理解與推理能力。基於此,最新研究將CoT機制擴展至視覺模態,使模型能借助外部工具或顯式圖像生成在推理過程中整合視覺信息。然而現有方法仍存在三方面侷限:依賴顯式的逐步推理、感知-推理交互不穩定,以及顯著的計算開銷。受人類認知機制啟發,我們認為思維的展開並非線性過程,而是推理與感知在腦內動態交織的結果。基於此觀點,我們提出DMLR——一種測試時動態多模態潛在推理框架,採用置信度引導的潛在策略梯度優化方法來精煉潛在思維標記以實現深度推理。此外,我們引入動態視覺注入策略,在每個潛在思維標記處檢索最相關的視覺特徵並更新最佳視覺補丁集合,隨後將更新後的補丁注入潛在思維標記,實現動態的視覺-文本交織。在七個多模態推理基準測試及多種模型架構上的實驗表明,DMLR在保持高推理效率的同時,能顯著提升模型的推理與感知性能。
创造新颖的视觉概念往往需要通过不同想法之间最相关的共享属性——即它们的「氛围特征」——来建立连接。本文提出「氛围融合」这一新任务,旨在生成连贯且有意义的混合图像,以揭示图像间潜在的共享属性。现有方法难以在潜在空间中识别并穿越连接远距离概念的非线性路径,因此实现此类融合具有挑战性。我们构建了「氛围空间」——一种分层图流形,能在CLIP等特征空间中学习低维测地线,从而实现概念间平滑且语义一致的过渡。为评估创意质量,我们设计了融合人类判断、大语言模型推理与基于几何路径的难度评分的认知启发式框架。实验表明,相较于现有方法,氛围空间生成的融合图像在人类评估中持续获得更高创意性与连贯性评分。
评估大型语言模型(LLM)生成表格的质量仍是一个开放性挑战:现有指标或将表格扁平化为文本而忽略结构,或依赖固定参考标准从而限制泛化能力。我们提出TabReX——一个基于属性驱动、无需参考标准的表格生成评估框架,通过图推理实现评估。该框架将源文本和生成表格转化为规范化知识图谱,经由LLM引导的匹配流程实现对齐,最终通过可解释的规则化评分量化结构与事实保真度。该指标可在敏感度与特异性之间实现可控权衡,生成符合人类判断的单元格级错误追踪。为系统评估指标鲁棒性,我们构建了TabReX-Bench大规模基准数据集,涵盖六大领域、十二种规划器驱动的扰动类型,并划分为三个难度层级。实验结果表明,TabReX在专家排名相关性上达到最高水平,在强扰动下保持稳定,并能实现模型与提示词的细粒度对比分析,为结构化生成系统建立了可信可解释评估的新范式。
遞迴式Transformer中的參數共享雖能縮減模型規模,卻會導致層間表達力坍縮。我們提出LoRA混合機制(MoL),這是一種輕量級條件計算架構,透過在共享前饋網路(FFN)內插入低秩適應(LoRA)專家模組。與先前添加固定或外部適配器的方法不同,MoL無需解綁骨幹參數即可實現共享FFN的權重空間調製。我們預訓練了現代化遞迴架構ModernALBERT,整合了旋轉位置編碼、GeGLU激活函數、FlashAttention注意力機制以及基於蒸餾的初始化策略。在GLUE、SQuAD-v2和BEIR基準測試中,ModernALBERT(參數量5千萬至1.2億)在緊湊型模型中實現了最先進的性能,甚至超越規模更大的全參數化基準模型。我們還提出專家合併技術,可在推理時將MoL壓縮為單一適配器並保持精度,實現高效部署。實驗結果表明,條件化權重空間調製能有效恢復遞迴Transformer在激進參數共享下損失的表達力。
视觉情感理解(VEC)旨在从图像中嵌入的情感线索推断情感极性或情绪类别。近年来,多模态大语言模型(MLLMs)通过其泛化能力统一了不同情感分类体系下的VEC任务,建立了该领域的主流范式。尽管这一范式取得显著成功,但通常将VEC视为确定性任务,要求模型为每张图像输出单一确定的情感标签。此类设定未能充分考虑情感感知固有的主观性,忽略了不同观者可能认为同样合理的替代性解读。为突破此局限,我们提出为MLLMs配备情感预测置信度表达能力。这种附加信号可同时为用户提供替代性解读的合理度估计与模型的自我能力评估,从而提升实际应用的可靠性。基于此洞见,我们设计了三阶段训练框架:逐步赋予结构化推理能力、教授置信度表达技巧、校准置信度表述,最终构建出面向VEC的置信度感知模型EmoCaliber。通过在统一基准VECBench上的公平全面评估,EmoCaliber在情感预测与置信度估计方面均展现出对现有方法的整体优势。这些结果验证了我们方法的有效性,并为构建更可靠的VEC系统迈出可行一步。项目页面:https://github.com/wdqqdw/EmoCaliber。
高质量数学推理监督需要多样化的推理风格、长篇幅的推导轨迹以及有效的工具集成能力,而现有数据集仅能有限地提供这些要素。依托gpt-oss-120b的多模式生成能力,我们推出Nemotron-Math——一个包含750万条解题轨迹的大规模数学推理数据集,涵盖高、中、低三种推理模式,每种模式均提供含Python工具集成推理(TIR)与不含TIR的版本。该数据集整合了8.5万道精编AoPS试题与26.2万道社区来源的StackExchange-Math问题,将结构化竞赛任务与多样化的真实数学问题相结合。我们通过受控评估来检验数据集质量:Nemotron-Math在匹配的AoPS问题上持续超越原始OpenMathReasoning;引入StackExchange-Math数据显著提升了模型鲁棒性与泛化能力(尤其在HLE-Math测试中),同时保持数学竞赛基准的准确率。为支持高效长上下文训练,我们开发了分段分桶策略,使128K上下文长度的微调加速2-3倍且无显著精度损失。总体而言,Nemotron-Math实现了最先进的性能表现,包括在AIME 2024和2025测试中采用Python TIR时达到100% maj@16准确率。
大型语言模型(LLM)的兴起催生了一种新型编程范式:自然语言编程。通过编写提示词来引导LLM执行自然语言处理、代码生成、推理等任务,用户实际上是在用自然语言编写代码——即自然语言代码——交由LLM执行。 新兴研究领域正致力于实现自然语言代码与Python等形式化语言之间的互操作性。我们提出了一种新颖的编程抽象概念——共享程序状态,该概念消除了实现自然语言代码与程序状态互操作所需的手动工作。借助共享程序状态,程序员能够编写直接写入程序变量、使用程序对象进行计算以及实现程序控制流的自然代码。我们提出了一种用于规范自然函数接口的架构,该架构可扩展编程系统以支持自然代码,并利用此架构将共享程序状态定义为自然函数接口。 我们在Nightjar编程系统中实现了共享程序状态。该系统支持程序员编写包含自然代码的Python程序,这些自然代码可与Python程序状态实现共享。实验表明,Nightjar程序在任务准确率上达到甚至超过手动编写实现的水平(提升4-19%),同时平均减少39.6%的代码行数。使用Nightjar的代价是可能产生运行时开销(达到手动实现运行时间的0.4-4.3倍)。