每日精選AI研究論文及翻譯
大型語言模型(LLMs)已從根本上改變了自動化軟體開發的格局,實現了將自然語言描述直接轉譯為功能性程式碼的能力,並透過GitHub Copilot(微軟)、Cursor(Anysphere)、Trae(字節跳動)和Claude Code(Anthropic)等工具推動商業應用。儘管該領域已從基於規則的系統演進至Transformer架構為主導,在HumanEval等基準測試上的成功率從個位數提升至超過95%,但技術發展仍面臨諸多挑戰。本文針對程式碼大型語言模型提出系統性的綜述與實踐指南(包含一系列分析性與探測性實驗),從資料治理到後訓練階段完整審視模型生命週期,涵蓋進階提示範式、程式碼預訓練、監督式微調、強化學習及自主編碼代理等關鍵環節。我們深入分析通用大型語言模型(GPT-4、Claude、LLaMA)與專用程式碼模型(StarCoder、Code LLaMA、DeepSeek-Coder、QwenCoder)的程式碼能力,批判性檢視其技術實現、設計決策與權衡取捨。進一步地,我們闡明學術研究(如基準測試與任務設計)與實際部署(如軟體相關程式碼任務)之間的研究實踐落差,包括程式碼正確性、安全性、大型程式碼庫的上下文感知能力,以及與開發工作流的整合,並將具潛力的研究方向對應至實際需求。最後,我們透過系列實驗對程式碼預訓練、監督式微調與強化學習進行全面分析,涵蓋規模化規律、框架選擇、超參數敏感性、模型架構及資料集比較等維度。
大型多模態模型在結合文本思維鏈進行影片推理方面展現出巨大潛力,但其仍易產生幻覺現象,尤其在處理證據稀疏且時間分散的長影片時更為明顯。受人類理解長影片方式的啟發——先全域瀏覽再審視相關片段獲取細節——我們提出LongVT,這是一個端到端的智能體框架,通過交錯式多模態工具思維鏈實現「長影片思考」。具體而言,我們利用大型多模態模型固有的時間定位能力作為原生影片裁剪工具,可聚焦特定影片片段並重新採樣更細粒度的影格。這種從全域到局部的推理循環持續進行,直到答案基於檢索到的視覺證據為止。 針對長影片推理任務中細粒度問答數據稀缺的問題,我們構建並將開源名為VideoSIAH的數據套件,以支持訓練與評估。具體而言,我們的訓練數據集包含24.79萬個用於工具整合冷啟動監督微調的樣本、1,600個用於智能體強化學習的樣本,以及1.54萬個用於智能體強化微調的樣本。評估基準則包含1,280個通過半自動數據流水線結合人機協同驗證精心構建的問答對。 通過精心設計的三階段訓練策略與大量實證驗證,LongVT在四項具有挑戰性的長影片理解與推理基準測試中均持續超越現有強基線模型。我們的代碼、數據及模型檢查點已開源於:https://github.com/EvolvingLMMs-Lab/LongVT。
當前多模態模型旨在超越單模態表徵的局限,通過統一理解與生成能力,常採用文本到圖像(T2I)任務來校準語義一致性。然而,其在訓練與評估中依賴靜態單圖像生成,導致過度擬合靜態模式匹配與語義融合,從根本上限制了模型對時序動態過程的建模能力。為突破這些限制,我們提出Envision——一個專注於因果事件演進的鏈式文本到多圖像生成基準。該基準以世界知識為基礎,通過時空因果關係構建結構,重組現有評估維度,涵蓋六大科學與人文領域的1,000個四階段生成提示。為將評估從單圖像過渡到序列幀,並檢驗模型是否真正內化世界知識且遵循因果時序約束,我們引入Envision-Score這一融合多維一致性、物理合理性與美學質量的綜合指標。對15個模型(10個專用T2I模型、5個統一多模態模型)的全面評估揭示:專用T2I模型雖擅長美學渲染,但缺乏內在世界知識;統一多模態模型能彌合此差距,在因果敘事連貫性上持續優於專用模型。然而,即便這些統一架構仍遜於閉源模型,且難以克服時空一致性的核心挑戰。這表明對因果孤立單圖像的關注會阻礙多幀推理與生成,促使模型偏向靜態模式匹配而非動態世界建模,最終限制世界知識的內化與生成能力。
本論文提出了一種基於大型語言模型的強化學習新框架,闡明瞭在何種條件下可透過REINFORCE等策略梯度方法中的代理詞元級目標函數來優化真實序列級獎勵。具體而言,通過一階近似分析,我們證明僅當訓練-推論差異與策略陳舊性同時最小化時,該代理目標的有效性才會顯著提升。這一發現為多種廣泛採用的穩定RL訓練技術提供了理論解釋,包括重要性採樣校正、梯度裁剪,以及特別針對專家混合模型的路由重播技術。通過對總計數十萬GPU小時的300億參數MoE模型進行大量實驗,我們發現:在在線策略訓練中,帶有重要性採樣校正的基礎策略梯度算法能實現最高訓練穩定性;當引入離線策略更新以加速收斂時,結合梯度裁剪與路由重播技術對於緩解策略陳舊性引發的不穩定性至關重要。值得注意的是,一旦訓練趨於穩定,無論冷啟動初始化方式如何,延長優化時間均能獲得相當的最終性能。我們期望這些關於穩定RL訓練的洞見與實踐方案能為未來研究提供助力。
深度研究智能體(DRA)旨在通過迭代式資訊檢索與綜合分析,自動生成達到分析師水準的研究報告。然而現有DRA大多在問答基準測試中進行驗證,針對綜合性報告生成的研究仍被忽視。更嚴重的是,當前報告合成基準測試存在任務複雜性與主觀評估指標的雙重缺陷,既無法反映真實用戶需求,也限制了生成報告的實用價值。為解決這些問題,我們提出精細化深度研究基準(FINDER),該增強型基準包含100項人工策劃的研究任務與419個結構化檢查項,可標準化報告結構、分析深度與事實依據。基於主流DRA生成的近千份報告,我們進一步提出深度研究失效分類法(DEFT),這是首個針對深度研究智能體的失效分類體系。DEFT包含推理、檢索與生成三大維度的14種細粒度失效模式,並紮根於質性研究方法論,採用人機協同標注與標注者間信度驗證機制。實驗結果表明,當前DRA的瓶頸不在任務理解能力,而在證據整合、事實核查以及具備推理韌性的規劃能力。
近期影片擴散模型雖能合成視覺效果出眾的片段,卻常違背基本物理定律——物體漂浮、加速度漂移、碰撞行為不一致——顯露出視覺真實性與物理真實性之間的持續差距。我們提出NewtonRewards,首個基於可驗證獎勵的物理基礎影片生成後訓練框架。該框架無需依賴人類或視覺語言模型反饋,而是透過凍結的實用模型從生成影片中提取可測量代理指標:光流作為速度代理,高層次外觀特徵作為質量代理。這些代理指標透過兩種互補獎勵機制實現牛頓力學結構的顯式強化:牛頓運動學約束強制保持恆加速度動力學,質量守恆獎勵則防止出現平凡退化解。我們使用新建構的大規模基準NewtonBench-60K,針對五種牛頓運動基元(自由落體、水平/拋物線拋射、斜坡下滑/上滑)進行評估。在所有運動基元的視覺與物理指標中,NewtonRewards相較既有後訓練方法持續提升物理合理性、運動平滑度與時間連貫性,並在高度、速度、摩擦力的分佈外偏移條件下仍保持強健性能。實驗結果表明,基於物理的可驗證獎勵為實現物理感知的影片生成提供了可擴展路徑。
先前的研究已探索了多種基於參考圖像的客製化生成任務,但在生成具有一致細粒度細節的圖像方面仍存在侷限性。本文旨在通過應用參考引導的後製編輯方法解決生成圖像的不一致問題,並提出我們的ImageCritic系統。我們首先透過基於視覺語言模型的選擇與顯性退化處理,構建了參考-退化-目標三元組數據集,有效模擬了現有生成模型中常見的細節誤差或不一致現象。進一步地,在深入分析模型注意力機制與內在表徵的基礎上,我們相應設計了注意力對齊損失函數與細節編碼器,以精準校正不一致問題。ImageCritic可整合至智能體框架中,在複雜場景下通過多輪次局部編輯自動檢測並修正不一致細節。大量實驗表明,ImageCritic能在各類客製化生成場景中有效解決細節相關問題,相較現有方法實現顯著提升。
當前基於自迴歸的視訊擴散模型面臨三大核心瓶頸:(i) 基礎模型的三維旋轉位置編碼(3D-RoPE)施加的有限時間視野限制;(ii) 長序列生成過程中提示詞響應遲滯,難以維持細粒度動作控制;(iii) 無法在單一生成流中實現非連續的電影式場景轉場。我們提出 infty-RoPE——一個統一的推理時框架,通過三個相互關聯的組件突破所有限制:塊相對論 RoPE、KV 刷新與 RoPE 截斷。塊相對論 RoPE 將時間編碼重構為移動局部參考系,使新生成的潛在塊相對於基礎模型的最大幀視野進行旋轉,同時將早前生成的塊向後旋轉以保持相對時間幾何關係。這種相對論公式消除了固定時間位置,實現超越基礎位置限制的連續視訊生成。為實現無需重新編碼的細粒度動作控制,KV 刷新機制僅保留全局錨點幀與最新生成的潛在幀來更新 KV 緩存,從而確保即時的提示詞響應。最後,RoPE 截斷通過在時間 RoPE 座標中引入受控間斷,實現單次連續生成內的多鏡頭場景轉場。這些組件共同使 infty-RoPE 成為無需訓練即可實現無限時長、可控且具電影感視訊生成的基礎框架。全面實驗表明,infty-RoPE 在 VBench 綜合評分中持續超越現有自迴歸模型。
統一多模態模型(UMMs)旨在單一框架內實現多模態理解與生成的聯合處理。本文提出TUNA——一種原生統一多模態模型,其通過將VAE編碼器與表徵編碼器級聯構建出統一的連續視覺表徵空間。這種統一表徵空間允許對圖像和影片進行端到端的理解與生成任務處理。相較於先前採用解耦表徵的統一多模態模型,TUNA的統一視覺空間避免了因分離編碼器導致的表徵格式失配問題,在理解與生成任務上均超越了解耦方案。此外,我們發現更強的預訓練表徵編碼器能在所有多模態任務中持續提升性能,凸顯了表徵編碼器的關鍵作用。最終在這種統一架構下,聯合訓練理解與生成數據能使兩項任務相互促進而非干擾。我們在多模態理解與生成基準測試上的大量實驗表明,TUNA在圖像/影片理解、圖像/影片生成及圖像編輯任務中均達到最先進水平,證明了其統一表徵設計的有效性與可擴展性。
我们推出LFM2系列液态基础模型,该系列专为高效设备端部署与强大任务能力而设计。通过在边缘延迟和内存约束下进行硬件在环架构搜索,我们获得了结合门控短卷积与少量分组查询注意力模块的紧凑混合主干网络,在CPU上相比同规模模型实现最高2倍的预填充和解码速度。LFM2系列涵盖350M-8.3B参数规模,包括稠密模型(350M/700M/1.2B/2.6B)和专家混合变体(8.3B总量/1.5B激活参数),均支持32K上下文长度。其训练流程包含避免支持失配的温和解耦Top-K知识蒸馏目标、按难度排序数据的课程学习,以及监督微调-长度标准化偏好优化-模型融合的三阶段后训练方案。经过10-12T token预训练的LFM2模型在多项基准测试中表现优异:LFM2-2.6B在IFEval达到79.56%,GSM8K达到82.41%。我们还开发了多模态与检索变体:面向视觉语言任务的LFM2-VL、语音处理的LFM2-Audio以及检索专用的LFM2-ColBERT。LFM2-VL通过令牌高效的视觉处理支持可调节的精度-延迟权衡;LFM2-Audio采用音频输入输出路径分离设计,可实现与三倍规模模型相当的实时语音交互;LFM2-ColBERT提供低延迟查询文档编码器,支持跨语言高性能检索。所有模型均开源权重及ExecuTorch、llama.cpp和vLLM部署套件,使LFM2成为需要快速、内存高效推理与强大任务能力的边缘应用的实用基础平台。
知識圖譜(KGs)為大型語言模型(LLMs)提供了結構化、可驗證的基礎,但當前基於LLM的系統通常僅將KGs作為文本檢索的輔助結構,未能充分挖掘其內在質量。本研究提出Wikontic——一個多階段處理流程,通過從開放域文本中提取帶有限定符的候選三元組、實施基於Wikidata的類型與關係約束,以及規範化實體以減少冗餘,從而構建KGs。所得KGs具有緊湊性、本體一致性和高連通性特點:在MuSiQue數據集中,正確答案實體出現在96%的生成三元組中。在HotpotQA上,我們僅使用三元組的設定達到76.0 F1值,在MuSiQue上達到59.8 F1值,匹配或超越了仍需依賴文本語境的若干檢索增強生成基線模型。此外,Wikontic在MINE-1基準測試中實現了最先進的信息保留性能(86%),優於現有KG構建方法。Wikontic在構建效率方面表現突出:KG構建過程消耗少於1,000個輸出標記,約為AriGraph的1/3,不足GraphRAG的1/20。該流程顯著提升了生成KG的質量,為LLMs中結構化知識的規模化應用提供了可行方案。
近期大型语言模型(LLM)的发展得益于其涌现的推理能力,特别是通过长链思维(CoT)提示技术实现了全面探索与深度思考。然而尽管取得这些进展,长链CoT模型常表现出次优推理行为,如过度思考与推理链条冗长等问题,反而影响推理性能。本文从优化视角分析推理过程,将CoT构建为梯度下降过程——每个推理步骤都是向问题解决的迭代更新。基于此视角,我们提出RePro(过程级奖励校正)这一后训练阶段优化LLM推理的新方法。该方法通过定义代理目标函数评估CoT背后的优化过程,采用双评分机制量化推理强度与稳定性,并将评分聚合为复合型过程级奖励,无缝集成至带可验证奖励的强化学习(RLVR)流程中以优化模型。在数学、科学与编程等多领域基准测试中,针对不同强化学习算法与多样LLM开展的广泛实验表明,RePro能持续提升推理性能并有效缓解次优推理行为。
擴散模型已成為生成模型的主流類別,但其迭代採樣過程仍存在計算成本高的問題。時間步蒸餾雖是加速生成的有效技術,但通常需要大量訓練且會導致圖像質量下降。此外,基於強化學習對這些蒸餾模型進行特定目標(如美學吸引力或用戶偏好)的微調,存在著眾所周知的不穩定性,容易陷入獎勵破解困境。本研究提出Flash-DMD新框架,通過蒸餾與聯合強化學習優化實現快速收斂。具體而言,我們首先提出高效的時間步感知蒸餾策略,在僅需DMD2模型2.1%訓練成本的條件下,顯著提升真實感表現;其次設計聯合訓練方案,在持續進行時間步蒸餾的同時,以強化學習目標對模型進行微調。實驗證明,持續蒸餾所產生的穩定明確損失函數可作為強效正則化器,有效穩定強化學習訓練並防止策略崩潰。在基於分數和流匹配模型上的大量實驗表明,Flash-DMD不僅收斂速度顯著提升,在少步採樣機制下更達到頂尖生成質量,於視覺質量、人類偏好和文圖對齊指標上均超越現有方法。本研究為訓練高效、高保真且穩定的生成模型提供了有效範式。代碼即將開源。
视觉-语言-动作模型(VLA)在多样化机器人任务中的能力日益增强。然而,其实际部署仍存在速度迟缓与效率低下的问题:演示视频常需加速5-10倍以呈现流畅效果,且存在明显动作停滞及对环境变化的延迟响应。异步推理通过实现机器人动作执行与推理计算同步进行,为达成连续低延迟控制提供了可行方案。但由于推理过程中机器人与环境持续演变,预测区间与执行区间会产生时序错位,导致显著的动作不稳定性。现有方法或牺牲精度或引入运行时开销以缓解该问题。我们提出VLASH——一种通用VLA异步推理框架,可在无需额外开销或架构改动的前提下实现平滑、精准、快速的反应控制。该框架通过将机器人状态与先前生成的动作片段向前推演,预估未来执行时刻的状态,从而弥合预测与执行间的鸿沟。实验表明,相较于同步推理,VLASH可实现最高2.03倍的速度提升,并将反应延迟降低达17.4倍,同时完全保持原始精度。此外,它使VLA能胜任乒乓球对打、打地鼠等需要快速反应与高精度的任务,而传统同步推理在此类任务中均告失败。代码已开源于:https://github.com/mit-han-lab/vlash
我们提出GR-RL这一机器人学习框架,它能将通用视觉-语言-动作策略转化为擅长长时序灵巧操作任务的专家级系统。现有VLA策略的核心假设是人类示范具有最优性,但我们发现在高精度灵巧操作任务中,人类示范实际存在噪声且非最优。GR-RL通过多阶段训练流程,利用强化学习对示范数据进行筛选、增强与强化:首先学习视觉语言条件化的任务进度函数,筛选示范轨迹并仅保留对进度有积极贡献的状态转移。具体而言,我们证明直接应用稀疏奖励的离线强化学习时,所得Q值可作为鲁棒的进度评估函数;其次引入形态对称增强技术,显著提升GR-RL的泛化能力与性能;最后通过隐空间噪声预测器进行在线强化学习,使VLA策略与其部署行为在高精度控制任务中更好对齐。该框架实现了基于学习的策略在穿鞋带任务中的突破——能够自主将鞋带依次穿过多个鞋孔,成功率高达83.3%,此任务需具备长时序推理、毫米级精度及柔顺的软体交互能力。我们期待GR-RL为通用机器人基础模型向现实世界可靠专家的转化提供新思路。
大規模影片-文本預訓練雖能實現強勁性能,但其依賴於噪聲多、語義覆蓋有限的合成字幕,往往忽略物體運動、三維幾何和物理線索等隱性世界知識。相比之下,掩碼影片建模(MVM)能直接利用時空結構,但在通用任務上落後於文本監督方法。我們發現此差距源於被忽視的架構問題:像素級重構存在收斂困難,其低層級需求常與語義特徵衝突,而潛在表徵預測易引發捷徑學習。為此,我們將傳統編碼器-解碼器架構解耦為編碼器-預測器-解碼器(EPD)框架,其中預測器充當潛在世界模型,並提出InternVideo-Next——一種兩階段預訓練方案,為該世界模型構建語義一致且保留細節的潛在空間。首先,像素級MVM中的傳統線性解碼器強制預測器輸出的潛在表徵需線性投影至像素空間,導致其與語義抽象產生衝突。我們的第一階段提出條件擴散解碼器,注入可靠的圖像級語義先驗以增強語義性與收斂性,從而銜接像素級保真度與高層語義抽象。第二階段在此空間內預測凍結的第一階段目標,進一步學習世界知識,緩解捷徑學習問題。基於公開未標註影片訓練的InternVideo-Next在多個基準測試中達到最先進水平,為通用影片表徵學習提供了可擴展路徑。
基于流的生成模型近期展现出强大性能,但其采样过程通常依赖昂贵的常微分方程数值积分。修正流方法通过学习近似直线概率路径实现一步采样,但达到这种直线性需要多次计算密集型的重流迭代。均值流方法通过直接建模时间维度上的平均速度实现一步生成,但在高曲率流上训练时存在收敛缓慢和监督信号嘈杂的问题。为克服这些局限,我们提出修正均值流框架,该框架仅需单次重流步骤即可沿修正轨迹建模平均速度场。这种方法在无需完全直线化轨迹的同时实现了高效训练。此外,我们引入一种简单有效的截断启发式方法,旨在降低残余曲率并进一步提升性能。在ImageNet数据集64×64、256×256和512×512分辨率上的大量实验表明,修正均值流在样本质量和训练效率方面均优于现有的一步流蒸馏与修正流方法。代码已开源:https://github.com/Xinxi-Zhang/Re-MeanFlow。
本文指出,检索算法的目标是与大语言模型对齐,这与大语言模型知识蒸馏的目标具有相似性。我们从信息论角度分析了蒸馏语言模型与原始大语言模型在信息关注点的相似性,进而提出了一种以蒸馏语言模型作为检索算法的新范式。基于此洞见,我们提出了SpeContext——一种面向长上下文推理的算法与系统协同设计框架。(1)在算法层面,SpeContext基于蒸馏语言模型的头部级注意力权重提出轻量级检索头,通过剪枝冗余参数实现超过90%的参数缩减;(2)在系统层面,通过弹性加载策略设计异步预取数据流,有效实现KV缓存检索与大语言模型计算的并行化;(3)在编译层面,构建理论内存模型并实现自适应内存管理系统,通过最大化GPU内存利用率实现加速。我们在云端和边缘两种资源受限环境中部署评估SpeContext。大量实验表明,相较于Huggingface框架,SpeContext在云端实现最高24.89倍吞吐量提升,在边缘端实现10.06倍加速,且精度损失可忽略不计,推动了精度与吞吐量的帕累托前沿边界。
流媒体视频大语言模型(VideoLLMs)在各类视频理解任务中展现出卓越性能,但由于处理连续视频流中密集视觉标记的高计算成本,其在实时部署时面临显著挑战。在流媒体视频场景中,主要瓶颈存在于视觉变换器(ViT)编码阶段——对时间维度上相似帧的冗余处理导致效率低下。此外,大语言模型预填充阶段过度膨胀的标记序列会进一步加剧延迟和内存开销。为应对这些挑战,我们提出流式标记压缩(STC),这是一种即插即用的分层框架,可无缝集成到现有流媒体VideoLLMs中,通过同步优化ViT编码和LLM预填充阶段来加速处理。STC引入双层级标记加速器:STC-Cacher通过缓存并复用时序相似帧的特征降低ViT编码开销;STC-Pruner则在视觉标记序列输入LLM前进行压缩,基于时空相关性仅保留最显著的标记。在五个基准测试平台上对四种主流流媒体VideoLLMs的广泛实验表明,STC优于其他压缩方法。值得注意的是,该框架在ReKV基准上保持高达99%的精度,同时将ViT编码延迟和LLM预填充延迟分别降低24.5%和45.3%。
大型语言模型(LLM)是代码生成、数学推理和智能体工作流等应用的技术基石。实际应用中,系统通常通过商业API或开源部署调用LLM,而模型生态(如GPT、Claude、Llama等)正经历快速迭代。这种快速演进迫使开发者需要基于能力、成本、部署约束和隐私等因素频繁切换模型。然而提示词具有显著的模型敏感性:将针对某模型优化的提示词直接迁移至其他模型时,其性能往往远低于针对目标模型专门优化的提示词。我们将这种现象称为模型漂移。通过对多样化LLM配置的实证分析,我们发现模型漂移不仅普遍存在且影响严重。为应对这一挑战,我们提出了PromptBridge——一种免训练框架,可在模型切换时保持提示词有效性,实现无需昂贵逐任务或逐模型重新优化的跨模型提示词迁移。该框架仅需少量对齐任务进行校准:首先通过模型自适应反射式提示词进化(MAP-RPE)技术,经由迭代反射优化与量化评估获得任务与模型专属的最优提示词;利用源模型与目标模型校准后的提示词对,学习跨模型提示词映射关系。在测试阶段(即面对未知任务时),给定源模型提示词,该映射可直接生成目标模型的优化提示词。单智能体与多智能体场景的实验表明,PromptBridge能持续提升下游任务准确率,同时显著降低迁移成本。相关代码即将开源。
测试时计算缩放已成为通过推理阶段分配额外计算资源来增强大型语言模型数学推理能力的重要范式。然而,现有方法对所有推理子问题采用均匀的资源分配策略,这造成了根本性瓶颈:具有挑战性的子问题得不到足够关注,而常规运算却消耗了不成比例的资源。这种均匀分配导致性能瓶颈,使得额外计算资源的投入产生边际效益递减。受双过程理论启发,我们提出SCALE(选择性资源分配)框架,该框架基于子问题难度进行选择性计算资源分配。SCALE通过四个阶段运作:(1)将问题分解为顺序推理子问题;(2)评估每个子问题的难度以区分常规运算与计算密集型子问题;(3)在系统1(处理简单子问题)和系统2(处理复杂子问题)之间选择处理模式;(4)结合上下文传播的顺序执行。通过将资源集中于挑战性子问题同时高效处理常规运算,SCALE在显著提升资源利用率的同时实现了可观的性能改进。大量实验表明,SCALE显著优于均匀缩放基线,在AIME25数据集上准确率提升高达13.75个百分点(从57.50%至71.25%),同时降低33%-53%的计算成本,这标志着测试时缩放技术取得了重大突破,有效解决了现有方法的根本性局限。
多语言文本到图像生成模型在视觉真实性与语义对齐方面进展迅速,目前已获得广泛应用。然而其输出结果会随文化语境产生差异:由于语言承载着文化内涵,基于多语言提示词生成的图像应当保持跨语言的文化一致性。我们通过系统性分析发现,当前T2I模型在处理多语言提示时常产生文化中立或英语文化偏向的结果。对两个代表性模型的剖析表明,该问题并非源于文化知识的缺失,而是文化相关表征的激活不足所致。我们提出一种探测方法,可将文化敏感信号定位至少数固定层中的特定神经元集群。基于此发现,我们引入两种互补的对齐策略:(1)无需微调主干模型的推理时文化激活技术,通过放大已识别神经元的响应强度实现文化调控;(2)层定向文化增强技术,仅更新与文化相关的模型层级。在自建CultureBench评估集上的实验表明,该方法在保持图像保真度与多样性的同时,较基线模型实现了文化一致性的持续提升。
多模态大语言模型(MLLMs)中视觉标记的快速增长导致内存消耗和推理延迟激增,尤其在处理高分辨率图像和视频时更为显著。标记剪枝技术通过消除冗余来缓解该问题,但现有方法往往忽略与用户查询的相关性,或受限于注意力机制,导致适应性和有效性降低。为此,我们提出Script——一种即插即用的剪枝方法,无需重新训练即可泛化至多种MLLMs。该方法包含两个模块:图结构剪枝模块用于消除视觉冗余标记,查询条件语义剪枝模块则保留与查询相关的视觉信息。二者协同提升多模态任务性能。在涵盖图像与视频理解任务的14个基准测试中,Script相比现有剪枝方法持续实现更高的模型效率与预测准确率。在LLaVA-NeXT-7B模型上,该方法实现了最高6.8倍的前向加速和10倍浮点运算量削减,同时保持原模型96.88%的性能表现。
从单张图像中恢复像素级几何属性本质上是病态问题,这源于外观歧义性以及二维观测与三维结构间的非单射映射。虽然判别式回归模型通过大规模监督学习实现了强劲性能,但其成功受限于可用数据的规模、质量与多样性,且缺乏物理推理能力。近期扩散模型展现出强大的世界先验,能够编码从海量图文数据中学到的几何与语义信息,但直接沿用其随机生成范式进行确定性几何推理存在次优性:前者以多样化和高保真图像生成为优化目标,而后者需要稳定精确的预测。本文提出Lotus-2——一个用于稳定、精确且细粒度几何密集预测的两阶段确定性框架,旨在通过最优适配协议充分挖掘预训练生成先验。具体而言,在第一阶段,核心预测器采用具有干净数据目标函数的单步确定性公式,结合轻量级局部连续性模块(LCM)生成全局一致的无网格伪影结构;第二阶段中,细节锐化器在核心预测器定义的流形内执行约束型多步修正流优化,通过无噪确定性流匹配增强细粒度几何细节。仅使用5.9万训练样本(不足现有大规模数据集的1%),Lotus-2在单目深度估计任务中创造了最新标杆结果,并在表面法线预测中取得极具竞争力的性能。这些结果表明扩散模型可作为确定性世界先验,实现超越传统判别式与生成式范式的高质量几何推理。
流媒体视频理解不仅要求模型能处理时序输入的帧序列,更需在AR眼镜等现实应用中预判用户意图。尽管现有流媒体基准测试能评估时序推理能力,但尚未衡量多模态大语言模型在流式场景中解读或利用人类视线信号的能力。为弥补这一空白,我们推出StreamGaze——首个专门评估多模态大语言模型如何有效运用视线信号进行流媒体视频时序推理与前瞻性推理的基准测试。StreamGaze通过视线引导的过去时、现在时及前瞻性任务,全面评估流媒体视频理解能力。这些任务检验模型能否利用实时视线追踪注意力转移,并仅基于过去及当前观测帧推断用户意图。为构建StreamGaze,我们开发了视线-视频问答生成流程,通过注视点提取、区域特异性视觉提示和扫描路径构建,将第一人称视角视频与原始视线轨迹对齐。该流程生成的时空锚定问答对能精准反映人类感知动态。在所有StreamGaze任务中,我们发现顶尖多模态大语言模型与人类表现存在显著差距,揭示了现有模型在基于视线的时序推理、意图建模和前瞻预测方面的根本局限。我们进一步深入分析了视线提示策略、推理行为及任务特定失效模式,为当前多模态大语言模型的不足提供根源性解读,并指明未来模型需发展的关键能力。所有数据与代码将公开释放,以持续支持视线引导的流媒体视频理解研究。
受DeepSeek-R1启发的多模态推理模型近期显著推动了视觉语言系统的发展。然而在遥感任务中,我们观察到普遍存在的伪推理现象:模型仅机械描述推理流程,而非真正基于视觉证据推导正确答案。我们将此归因于"一瞥效应"——对大尺度遥感影像的粗粒度单次感知导致理解不完整,使推理建立在语言自洽性而非视觉证据基础上。为此,我们提出RS-EoT(遥感思维证据)范式,这是一种语言驱动的迭代式视觉证据搜寻机制。为实现该范式,我们设计SocraticAgent自博弈多智能体系统,通过推理与视觉检验的交替循环生成推理轨迹。为强化并泛化该模式,我们提出两阶段渐进式强化学习策略:首先在细粒度定位任务上进行RL训练以增强RS-EoT能力,继而在遥感视觉问答任务上进行RL训练以泛化至更广泛的理解场景。实验表明RS-EoT在多个遥感视觉问答与定位基准上达到最先进性能。分析显示清晰的推理与证据搜寻迭代循环,证实RS-EoT能有效缓解一瞥效应,实现真正的证据驱动推理。相关代码、数据及模型已开源:https://geox-lab.github.io/Asking_like_Socrates
图形用户界面(GUI)智能体需要有效利用历史上下文以执行序列化导航任务。虽然引入过往动作与观察能提升决策质量,但直接使用完整历史记录会导致计算开销过大并被无关信息干扰。为此,我们提出HiconAgent——一种通过历史上下文感知策略优化(HCPO)训练的GUI智能体,可实现历史信息的高效利用。HCPO通过两个互补组件优化历史信息在采样和策略更新中的使用:(1)动态上下文采样(DCS)在采样阶段为智能体提供可变长度历史记录,使其能自适应选择最相关上下文;(2)锚点引导的历史压缩(AHC)在策略更新阶段采用双分支策略,其中压缩分支在保留历史动作作为信息流锚点的同时去除历史观察。通过历史增强对齐损失耦合压缩与非压缩分支,在保证效率的同时强化历史使用的一致性。主流GUI导航基准测试表明,尽管模型规模更小,HiconAgent-3B在GUI-Odyssey数据集上的定位准确率与步骤成功率分别超越GUI-R1-7B达8.46%和11.32%,在AndroidControl和AITW数据集上达到相当效果的同时实现最高2.47倍计算加速与60%浮点运算量削减。
大型推理模型(LRMs)在数学、代码生成和任务规划方面表现出色,但其依赖冗长的"思维"标记链会导致高延迟、冗余和推理路径不连贯。受思想语言假说(该假说认为人类推理基于一种名为"心理语"的符号化、组合性心理语言)启发,我们提出了一个训练模型以类似紧凑风格进行推理的框架。心理语将抽象推理编码为超压缩的结构化标记,使模型能够用更少步骤解决复杂问题。为提升效率与准确性,我们提出短长度偏好优化(SLPO)——一种强化学习方法,奖励保持正确性的简洁解法,同时允许必要时进行更长推理。应用于心理语对齐模型时,SLPO通过实现保留详细思维优势的简洁推理,显著提升压缩率且无需额外计算开销。在AIME 2024/2025、MinervaMath、OlympiadBench、Math500和AMC等基准测试中,我们的ORION模型生成推理轨迹的标记数量减少4-16倍,推理延迟降低高达5倍,训练成本较DeepSeek R1 Distilled模型减少7-9倍,同时保持其90-98%的准确率。ORION模型在保持2倍压缩率的同时,准确率较Claude和ChatGPT-4o最高提升5%。这些结果表明,心理语式压缩推理向类人认知效率迈进了一步,可在不牺牲准确性的前提下实现实时、高性价比的推理。
基于扩散模型的反演去噪范式在多样化图像编辑与修复任务中表现卓越。我们重新审视其机制,揭示了导致重建质量退化的关键被忽视因素——近似噪声误差。该误差源于使用第t-1步的预测值来近似第t步的噪声,导致反演过程中产生严重的误差累积。我们提出投影正交最小二乘鲁棒自适应反演框架(POLARIS),将反演问题从误差补偿范式重构为误差溯源范式。不同于通过优化嵌入向量或潜代码来抵消累积偏差,POLARIS将引导尺度ω视为步进变量,并推导出具有数学依据的公式以逐步最小化反演误差。值得注意的是,POLARIS仅需单行代码即可提升反演潜空间质量。该方法在可忽略的性能开销下,显著降低了噪声近似误差,并持续提升下游任务的准确性。
基於可驗證獎勵的強化學習(RLVR)通過增強大型語言模型(LLM)的推理能力,推動了能夠執行高效多輪對話及工具集成推理的自主智能體發展。儘管指令是定義智能體的主要協議,但RLVR通常依賴靜態且人工設計的指令。然而,這些指令對基礎模型可能並非最優解,且最優指令會隨智能體策略的改進及與環境互動的探索而動態變化。為彌合這一差距,我們提出INSPO——一種指令-策略協同演化的創新框架,將指令優化整合為強化學習(RL)循環中的動態組件。INSPO維護一個隨問題採樣的動態指令候選集,其中RL循環的獎勵信號會自動歸因於每條指令,並定期淘汰低效指令。新指令通過基於策略的反思機制生成與驗證:由LLM驅動的優化器分析回放緩衝區中的過往經驗,並根據當前策略演化出更有效的策略。我們在多輪檢索與推理任務上進行大量實驗,證明INSPO顯著優於依賴靜態指令的強基線模型。該框架能發現創新性指令,引導智能體走向更具戰略性的推理路徑,僅以邊際計算開銷增長實現顯著性能提升。
专业临床人工智能助手正快速进入医疗实践领域,其宣传口径常强调比通用大语言模型更安全可靠。然而与前沿模型不同,这些临床工具很少接受独立的量化评估——尽管它们对诊断、分诊和指南解读的影响日益增强,这种评估缺失造成了关键证据空白。我们通过融合MedQA(医学知识)与HealthBench(临床对齐)任务的千项微型基准测试,对两款广泛应用的临床AI系统(OpenEvidence和UpToDate Expert AI)与三种顶尖通用大语言模型(GPT-5、Gemini 3 Pro和Claude Sonnet 4.5)进行对比评估。结果显示通用模型表现持续优于临床工具,其中GPT-5得分最高;而OpenEvidence和UpToDate在回答完整性、沟通质量、情境意识及系统化安全推理方面存在明显不足。这些发现表明,标榜为临床决策支持的工具可能普遍落后于前沿大语言模型,这凸显了在面向患者的诊疗流程中部署前,亟需建立透明独立的评估机制。
测试时扩展(TTS)——即在推理过程中动态分配计算资源——是提升大语言模型(LLM)推理能力的一个前景广阔的方向。然而,目前尚缺乏在相同条件下对知名TTS策略的系统性比较,且模型类型和问题难度对性能的影响仍不明确。为填补这些空白,我们开展了首个大规模TTS研究,涵盖使用八个开源LLM(参数量从70亿到2350亿)生成的超过三百亿个token,并横跨四个推理数据集。我们观察到三个一致趋势:(1)没有单一的TTS策略能普遍优于其他策略;(2)推理模型在不同问题难度和推理轨迹长度上表现出独特的轨迹质量模式,形成短视野和长视野两类;(3)对于特定模型类型,最优TTS性能随计算预算增加呈单调增长。基于这些发现,我们提出了选择最佳TTS策略的实用方案,该方案综合考虑问题难度、模型类型和计算预算,为有效的推理时扩展提供了实践指南。
当前图像编辑模型已具备高水平的智能编辑能力,能够实现认知引导与创意驱动的图像处理。然而现有评测基准的评估维度过于局限,难以系统评估这些高阶能力。为此,我们推出WiseEdit——一个知识密集型评测基准,通过深层任务难度与广泛知识跨度,对认知与创意驱动的图像编辑进行综合评估。该基准借鉴人类认知创造过程,将图像编辑解构为感知、解析与想象三个递进阶段,每个阶段对应特定任务以检验模型在该环节的完成能力,同时设置需多步骤协同的复合型任务。此外,WiseEdit融合了陈述性、程序性及元认知三大知识类型,最终构建包含1,220个测试案例的评估体系,客观揭示了当前最先进图像编辑模型在知识化认知推理与创意组合能力方面的局限。评测基准、评估代码及各模型生成图像将公开发布。项目页面:https://qnancy.github.io/wiseedit_project_page/。
尽管当前主流的相机控制视频生成模型能够制作电影级效果,但将其直接应用于生成具有三维一致性、高保真度且时间同步的多视角视频仍面临挑战,而这正是驾驭四维世界的关键能力。现有研究或采用数据增强策略,或依赖测试时优化技术,但这些方法受限于模型泛化能力不足与可扩展性问题。为此,我们提出ChronosObserver——一种免训练方法,其核心包含用于表征四维世界场景时空约束的"世界状态超空间",以及利用该超空间实现多视角扩散采样轨迹同步的"超空间引导采样"。实验结果表明,本方法无需对扩散模型进行训练或微调,即可生成高保真、具有三维一致性的时间同步多视角视频。
我们提出了一种新颖框架,该框架能直接从非结构化数据中学习用于形状和流形分析的谱基函数,无需传统算子选择、离散化和特征求解过程。基于最优逼近理论,我们通过最小化选定探测函数分布在所学基函数上的重构误差,训练神经网络分解隐式逼近算子。对于合适的分布,该方法可视为拉普拉斯算子及其特征分解的近似,这些在几何处理中具有基础性地位。此外,我们的方法以统一方式不仅恢复谱基函数,还能恢复隐式度量的采样密度及底层算子的特征值。值得注意的是,这种无监督方法不对数据流形(如网格化或流形维度)做任何假设,使其能扩展至任意维度的数据集。在三维曲面点云和高维图像流形上的实验表明,我们的方法无需显式构建算子即可产生有意义的谱基函数,其特性与拉普拉斯算子的谱基相似。通过用基于学习的方法取代传统的算子选择、构建和特征分解流程,本框架为传统处理管线提供了原理性、数据驱动的替代方案。这为处理非结构化数据(尤其是高维空间数据)的几何处理开辟了新途径。
计算机视觉领域的一个长期目标是实现视频中的运动建模,然而运动背后的表征——即导致物体形变与移动的不可见物理相互作用——至今仍少有研究。本文致力于探索如何从视觉观测中还原不可见的作用力,例如通过观察树叶飘落的过程来估算风场。我们的核心创新在于提出了一种端到端的可微分逆向图形框架,能够直接从视频数据中联合建模物体几何、物理属性及相互作用。通过反向传播算法,该方法实现了从物体运动中还原力场表征的能力。我们在合成场景与真实场景中验证了本方法,结果表明其能够从视频中推断出合理的力场分布。此外,我们还展示了该方法在物理启发的视频生成与编辑等领域的应用潜力。我们期望该研究能为理解像素背后的物理过程、弥合视觉与物理之间的鸿沟提供新的思路。更多视频结果请访问我们的{项目页面}https://chaoren2357.github.io/seeingthewind/。
尽管大语言模型在高资源多语言任务中表现出色,但对低资源及极低资源印度语系的评估仍严重不足。我们推出IndicParam——一个包含超过1.3万道多选题的人工标注基准数据集,涵盖11种印度语言(尼泊尔语、古吉拉特语、马拉地语、奥里亚语列为低资源语言;多格拉语、迈蒂利语、拉贾斯坦语、梵语、博多语、桑塔利语、孔卡尼语列为极低资源语言)以及梵英混合语集。通过对19个专有和开源权重模型的测试发现,表现最佳的GPT-5平均准确率仅达45.0%,DeepSeek-3.2(43.1%)和Claude-4.5(42.7%)次之。我们还将每道题目标注为知识导向型或纯语言型,以区分事实记忆与语法能力。此外,除了常规多选题,我们还评估了大模型处理列表匹配、论断-原因配对、序列排序等多元题型的能力。IndicParam揭示了跨语言迁移的局限性,为印度语系建立了具有挑战性的评估基准。数据集详见https://huggingface.co/datasets/bharatgenai/IndicParam,基准测试脚本位于https://github.com/ayushbits/IndicParam。
当前的故事可视化方法通常仅通过文本来定位主体,且在保持艺术一致性方面面临挑战。为解决这些局限性,我们推出了DreamingComics——一个具备布局感知能力的故事可视化框架。该框架基于预训练的视频扩散变换器(DiT)模型构建,利用其时空先验特性来增强角色身份与风格的一致性。针对基于布局的位置控制,我们提出了RegionalRoPE这一区域感知位置编码方案,通过目标布局对嵌入向量进行重新索引。此外,我们还引入掩码条件损失函数,进一步将每个主体的视觉特征约束在其指定区域内。为实现从自然语言脚本推断布局,我们集成了基于大语言模型的布局生成器,该生成器经过训练可生成漫画风格布局,从而实现灵活可控的布局条件控制。全面评估表明,相较于现有方法,我们的方案在角色一致性上提升29.2%,风格相似度提高36.2%,同时展现出卓越的空间准确性。项目页面详见:https://yj7082126.github.io/dreamingcomics/
因果思维使人类不仅能理解所见现象,更能洞悉其发生缘由。为在现代人工智能系统中复现这种能力,我们提出了视觉因果发现任务——要求模型在不同场景中推断视觉实体间的因果关系,而非仅感知其存在。为此,我们首先构建了包含32,000余张图像的大规模视觉因果图数据集(VCG-32K),所有图像均标注有实体级因果图;进而开发了CauSight新型视觉语言模型,通过因果感知推理实现视觉因果发现。我们的训练方案整合三大要素:(1)基于VCG-32K的训练数据构建;(2)用于合成推理轨迹的因果思维树(ToCT);(3)结合定制化因果奖励的强化学习以优化推理策略。实验表明,CauSight在视觉因果发现任务上显著超越GPT-4.1,性能提升超三倍(绝对增益达21%)。代码、模型及数据集已在项目页面开源:https://github.com/OpenCausaLab/CauSight。
近期,两阶段微调策略(如通过监督微调获取核心驾驶知识,再经由强化微调提升决策规划能力)在推动知识驱动型自动驾驶范式发展中展现出巨大潜力。然而,监督微调的学习机制仍存在推理泛化能力局限,制约了驾驶性能的全面提升。同时,由于场景理解属于开放性问题且相应奖励难以量化,现有强化微调方法主要应用于下游任务。为突破这些限制,我们提出OpenREAD——一种基于开放域推理强化的视觉语言模型自动驾驶框架,可实现从高层推理到低层轨迹规划的端到端强化微调。具体而言,我们首先在开源驾驶知识数据集上构建大规模思维链标注,并利用强大的千问3大语言模型作为强化微调中的评判器,对开放性问题在奖励建模过程中的推理质量进行量化。大量实验证实,联合端到端强化微调能显著提升上下游任务性能,使OpenREAD在推理与规划基准测试中达到最先进水平。
开源纯文本翻译大语言模型(LLM)在语言覆盖范围和质量方面已取得显著进展。然而,这些模型仅能通过级联管道应用于语音翻译(ST),即先进行自动语音识别再进行文本翻译。这种方式会引入额外延迟——在同步语音翻译(SimulST)中尤为关键,且无法利用多模态上下文(如图像)进行歧义消解。预训练多模态基础模型(MMFM)虽已具备跨模态的强感知推理能力,但通常缺乏专用翻译LLM的多语言覆盖能力和专业翻译性能。为构建高效的多模态翻译系统,我们提出一种端到端方法,将MMFM与翻译LLM相融合。通过创新性融合策略,将预训练MMFM多层隐藏状态连接至翻译LLM,实现联合端到端训练。基于Omni 2.5-7B作为MMFM、SeedX PPO-7B作为翻译LLM构建的OmniFusion模型,可实现语音到文本、语音加图像到文本、文本加图像到文本的翻译功能。实验表明,OmniFusion能有效利用音频与视觉输入,在SimulST中较级联管道降低1秒延迟,并提升整体翻译质量。代码已发布于https://github.com/saikoneru/OmniFusion。
相机与物体运动是视频叙事的核心要素。然而如何精确编辑这些已捕捉的运动仍是重大挑战,尤其在复杂物体运动场景下。当前基于运动控制的图像转视频(I2V)方法常因缺乏全景上下文而难以保持视频编辑的一致性,而视频转视频(V2V)方法虽能提供视角变化或基础物体位移,却对细粒度物体运动的控制力有限。我们提出了一种轨迹约束的V2V框架,可实现相机与物体运动的联合编辑。该框架通过将视频生成模型与源视频及表征源/目标运动的配对3D轨迹点相结合来实现此功能。这些3D轨迹点建立的稀疏对应关系,能在保持时空连贯性的同时,将丰富上下文从源视频迁移至新运动轨迹。关键的是,相较于2D轨迹,3D轨迹提供的显式深度线索使模型能够解析深度层级关系并处理遮挡问题,从而实现精确的运动编辑。通过合成数据与真实数据的双阶段训练,我们的模型支持多种运动编辑任务,包括相机/物体联合操控、运动迁移及非刚性变形,为视频编辑开启了新的创作可能。
全球甲狀腺癌發病率持續上升,推動了各類計算機輔助檢測技術的發展。精準分割甲狀腺結節是構建AI輔助臨床決策支持系統的關鍵第一步。本研究基於超聲影像,採用YOLOv5算法實現甲狀腺結節的實例分割。我們在包含與不包含多普勒圖像的兩種數據集版本上,評估了五種YOLOv5變體(Nano、Small、Medium、Large和XLarge)。結果顯示,YOLOv5-Large算法在包含多普勒圖像的數據集上表現最佳,其Dice相似係數達91%,平均精度均值(mAP)為0.87。值得注意的是,通常被醫師排除的多普勒圖像能顯著提升分割性能:當排除多普勒圖像時,YOLOv5-Small模型的Dice係數為79%,而包含多普勒圖像後所有模型變體性能均獲提升。這些發現表明,基於YOLOv5的實例分割技術可為甲狀腺結節檢測提供高效的實時解決方案,在自動化診斷系統中具有臨床應用潛力。
我们为2025年LibriBrain PNPL竞赛提出基于Conformer架构的解码器,针对两项基础性脑磁图任务:语音检测与音素分类。本方法采用紧凑型Conformer架构处理原始306通道脑磁图信号,配备轻量级卷积投影层和任务专用输出头。在语音检测任务中,我们首次探索了面向脑磁图信号的SpecAugment数据增强技术。对于音素分类任务,采用逆平方根类别权重与动态分组加载器来处理百样本平均后的数据。此外,简单的实例级归一化技术对缓解留出数据集上的分布偏移至关重要。基于官方标准赛道划分方案并采用宏平均F1分数进行模型选择,我们的最佳系统在排行榜上分别获得88.9%(语音检测)和65.8%(音素分类)的成绩,超越竞赛基线并在两项任务中均位列前十。具体实现细节、技术文档、源代码及模型检查点详见https://github.com/neural2speech/libribrain-experiments。
业务流程模型与标注(BPMN)是表示复杂业务工作流的广泛采用标准。尽管BPMN图表常以可视化图像形式交换,现有方法主要依赖XML表示进行计算分析。本研究提出一种利用视觉语言模型(VLM)的流程,可直接从图像中提取BPMN图表的结构化JSON表示,无需源模型文件或文本标注。我们结合光学字符识别(OCR)技术实现文本增强,并基于源XML文件生成的基准数据评估所得元素列表。该方法能够在原始源文件不可用的场景下实现稳健的组件提取。通过对多个VLM进行基准测试,我们发现使用OCR进行文本增强时多个模型性能有所提升。此外,我们对基于OCR的增强方法开展了广泛统计分析及提示词消融实验,从而更清晰地揭示了这些方法对模型性能的影响机制。