每日精選AI研究論文及翻譯
我们推出Ovis2.5,作为Ovis2的继任者,专为原生分辨率视觉感知和强大的多模态推理而设计。Ovis2.5集成了一个原生分辨率视觉Transformer,能够以图像的原生、可变分辨率处理图像,避免了固定分辨率分块带来的质量下降,同时保留了精细细节和全局布局——这对于复杂图表等视觉密集内容至关重要。为了增强推理能力,我们训练模型超越线性思维链,执行反思——包括自我检查和修正。这一高级能力在推理时作为可选的“思考模式”呈现,允许用户在延迟和困难输入上的准确性之间进行权衡。模型通过一个全面的五阶段课程逐步构建其技能,从基础的视觉和多模态预训练开始,经过大规模指令调优,最终使用DPO和GRPO进行对齐和推理增强。为了高效扩展这些升级,我们采用多模态数据打包和混合并行,实现了显著的端到端加速。我们发布了两款开源模型:Ovis2.5-9B和Ovis2.5-2B。后者延续了Ovis2“小模型,大性能”的理念,非常适合资源受限的端侧场景。在OpenCompass多模态排行榜上,Ovis2.5-9B平均得分78.3,较其前身Ovis2-8B有显著提升,并在40B参数以下的开源MLLM中达到最先进水平;Ovis2.5-2B得分73.9,在其规模上确立了SOTA。除了综合得分,Ovis2.5在STEM基准测试中取得领先成绩,在基础任务和视频任务上展现出强大能力,并在其规模上实现了开源SOTA的复杂图表分析。
長篇故事和小說的敘事理解一直是一個具有挑戰性的領域,這歸因於其複雜的情節線索以及角色與實體之間錯綜複雜且不斷演變的關係。考慮到大型語言模型(LLM)在處理長上下文時的推理能力受限以及高昂的計算成本,基於檢索的方法在實踐中仍然扮演著關鍵角色。然而,傳統的檢索增強生成(RAG)方法由於其無狀態的單步檢索過程,往往難以捕捉長範圍上下文中相互關聯關係的動態特性,從而存在不足。在本研究中,我們提出了ComoRAG,其核心原則是敘事推理並非一次性過程,而是一個動態演變的過程,涉及新證據的獲取與過去知識的整合,這與人類在處理與記憶相關信號時的認知過程相似。具體而言,當遇到推理瓶頸時,ComoRAG會與動態記憶工作空間進行交互,經歷多次推理循環。在每個循環中,它會生成探測性查詢以開闢新的探索路徑,然後將檢索到的新方面證據整合到全局記憶池中,從而為查詢解析提供連貫的上下文支持。在四個具有挑戰性的長上下文敘事基準測試(超過20萬個詞元)中,ComoRAG相較於最強的RAG基線模型,取得了最高達11%的相對性能提升。進一步分析表明,ComoRAG在需要全局理解的複雜查詢上表現尤為突出,為基於檢索的長上下文理解提供了一種基於認知科學原理的狀態推理範式。我們的代碼已公開於https://github.com/EternityJune25/ComoRAG。
我們提出了4DNeX,這是首個從單一圖像生成4D(即動態3D)場景表徵的前饋框架。與現有依賴計算密集型優化或需要多幀視頻輸入的方法不同,4DNeX通過微調預訓練的視頻擴散模型,實現了高效的端到端圖像到4D生成。具體而言,1)為緩解4D數據的稀缺性,我們構建了4DNeX-10M,這是一個利用先進重建方法生成高質量4D註釋的大規模數據集。2)我們引入了一種統一的6D視頻表徵,聯合建模RGB和XYZ序列,促進外觀和幾何的結構化學習。3)我們提出了一系列簡單而有效的適應策略,將預訓練的視頻擴散模型重新用於4D建模。4DNeX生成的高質量動態點雲支持新視角視頻合成。大量實驗表明,4DNeX在效率和泛化能力上優於現有的4D生成方法,為圖像到4D建模提供了一個可擴展的解決方案,並為模擬動態場景演化的生成式4D世界模型奠定了基礎。
我们提出了一种新颖的图像生成方法,通过将图像分解为一个结构化序列,其中序列中的每个元素共享相同的空间分辨率,但使用的唯一标记数量不同,从而捕捉不同层次的视觉粒度。图像生成通过我们新引入的“下一视觉粒度”(Next Visual Granularity, NVG)生成框架进行,该框架从空图像开始生成视觉粒度序列,并以结构化方式逐步细化,从全局布局到细节,层层递进。这一迭代过程编码了一种分层的、多层次的表示,提供了跨多个粒度级别对生成过程的精细控制。我们在ImageNet数据集上训练了一系列用于类别条件图像生成的NVG模型,并观察到明显的扩展行为。与VAR系列相比,NVG在FID得分上持续表现更优(3.30 -> 3.03, 2.57 ->2.44, 2.09 -> 2.06)。我们还进行了广泛的分析,以展示NVG框架的能力和潜力。我们的代码和模型将公开发布。
大型語言模型(LLMs)在語言理解、生成、推理等方面取得了令人矚目的成果,並推動了多模態模型的能力邊界。作為現代LLMs基礎的Transformer模型,提供了具有優異擴展性的強力基線。然而,傳統的Transformer架構需要大量計算,並在大規模訓練和實際部署中構成了顯著障礙。在本調查中,我們系統性地審視了創新LLM架構,這些架構旨在解決Transformer的固有局限並提升效率。從語言建模出發,本調查涵蓋了線性和稀疏序列建模方法、高效全注意力變體、稀疏專家混合、融合上述技術的混合模型架構,以及新興的擴散LLMs的背景與技術細節。此外,我們還探討了這些技術在其他模態上的應用,並考慮了它們在開發可擴展、資源感知的基礎模型方面的廣泛影響。通過將近期研究歸類於上述範疇,本調查呈現了現代高效LLM架構的藍圖,我們希望這能激勵未來研究朝著更高效、更通用的AI系統邁進。
大型語言模型(LLMs)對於提示詞語句和格式的細微、非語義變化極為敏感。在本研究中,我們首次在一個統一的實驗框架內,系統性地評估了五種提升提示詞魯棒性的方法。我們在來自Llama、Qwen和Gemma家族的八個模型上,基於自然指令數據集的五十二項任務進行了基準測試。我們的評估涵蓋了從微調到上下文學習範式下的多種魯棒性方法,並測試了它們對抗多種類型分佈偏移的泛化能力。最後,我們將分析擴展至GPT-4.1和DeepSeek V3,以評估前沿模型當前對格式擾動的魯棒性。我們的研究結果為這些魯棒性方法的相對有效性提供了可操作的見解,使實踐者在追求現實應用中穩定可靠的LLM性能時,能夠做出明智的決策。代碼請見:https://github.com/AIRI-Institute/when-punctuation-matters。
無分類器指導(Classifier-free Guidance, CFG)是現代擴散模型中廣泛使用的一項技術,旨在提升樣本質量與提示符的遵循度。然而,通過對具有閉式解的高斯混合模型進行實證分析,我們觀察到CFG產生的次優結果與真實情況之間存在差異。模型對這些次優預測的過度依賴,常常導致語義不連貫與低質量的輸出。為解決這一問題,我們首先實證展示了模型自身的子網絡能夠有效精煉這些次優預測。基於這一洞察,我們提出了S^2-Guidance,這是一種新穎的方法,它在前向過程中利用隨機塊丟棄來構建隨機子網絡,從而有效引導模型遠離潛在的低質量預測,朝向高質量輸出邁進。在文本到圖像與文本到視頻生成任務上的大量定性與定量實驗表明,S^2-Guidance展現出卓越的性能,持續超越CFG及其他先進的指導策略。我們的代碼將予以公開。
近年來,多模態模型取得了顯著的進展。然而,這些模型在空間理解和推理方面仍存在明顯的局限性,而這些能力是實現人工通用智能的基礎。隨著近期GPT-5的發布,據稱是目前最強大的AI模型,現在正是審視領先模型在空間智能發展路徑上處於何種位置的適當時機。首先,我們提出了一個統合現有基準的空間任務綜合分類法,並討論了確保公平評估的挑戰。接著,我們在八個關鍵基準上評估了最先進的專有和開源模型,總計消耗了超過十億個token。我們的實證研究揭示:(1) GPT-5在空間智能方面展現了前所未有的能力,但(2)在廣泛的任務範圍內仍未能達到人類水平。此外,我們(3)識別出了對多模態模型更具挑戰性的空間智能問題,並且(4)專有模型在面對最困難的問題時並未表現出決定性優勢。此外,我們還對一系列多樣化的場景進行了定性評估,這些場景對人類來說直觀易懂,卻連最先進的多模態模型也無法應對。
大型語言模型(LLMs)在數學和編程等逐步推理任務中展現了卓越的能力,但在需要長時間、結構化且相互依賴的行動序列的長遠規劃任務中,其熟練程度仍未被充分探索。現有的基準測試通常通過抽象或低維度的算法任務來評估LLMs,未能捕捉到現實規劃環境的複雜性。我們引入了HeroBench,這是一個專門設計的新基準,用於評估在複雜的RPG風格虛擬世界中的長遠規劃和結構化推理能力。HeroBench提供了一個嚴格構建的任務數據集,涵蓋了多種難度級別,一個用於執行和驗證代理計劃的模擬環境,以及詳細的分析工具來評估模型性能。這些任務挑戰模型制定戰略計劃、高效收集資源、掌握必要技能、製作裝備並擊敗對手,反映了實際場景中的層次依賴性和約束條件。我們對25個最先進的LLMs進行了廣泛評估,包括開源和專有模型,如GPT-5系列,揭示了在傳統推理基準中罕見的顯著性能差異。詳細的錯誤分析進一步揭示了當前模型在生成穩健的高層次計劃和可靠執行結構化行動方面的具體弱點。因此,HeroBench不僅顯著推進了LLM推理的評估,還為未來在虛擬環境中進行高級自主規劃的研究提供了靈活且可擴展的基礎。
近期在互動式影片生成領域的進展,已展示擴散模型作為世界模型的潛力,其能捕捉複雜的物理動態與互動行為。然而,現有的互動世界模型依賴於雙向注意力機制與冗長的推理步驟,嚴重限制了即時性能。因此,這些模型難以模擬現實世界的動態,其中結果必須基於歷史背景與當前動作即時更新。為解決此問題,我們提出了Matrix-Game 2.0,這是一個透過少步自回歸擴散即時生成長影片的互動世界模型。我們的框架包含三個關鍵組件:(1) 一個可擴展的數據生產管道,用於Unreal Engine與GTA5環境,以高效產生大量(約1200小時)帶有多樣互動註解的影片數據;(2) 一個動作注入模組,使幀級別的滑鼠與鍵盤輸入作為互動條件;(3) 基於因果架構的少步蒸餾,用於即時與串流影片生成。Matrix-Game 2.0能夠以每秒25幀的超快速度,跨多樣場景生成高品質的分鐘級影片。我們開源了模型權重與代碼庫,以推動互動世界建模的研究。
我們推出了AuriStream,這是一個受生物啟發的模型,用於通過受人類聽覺處理層次結構啟發的兩階段框架來編碼語音。第一階段將原始音頻轉換為基於人類耳蝸的時頻表示,從中我們提取出離散的耳蝸標記。第二階段在耳蝸標記上應用自回歸序列模型。AuriStream學習到了有意義的音素和詞彙表示,以及最先進的詞彙語義。AuriStream在多樣化的下游SUPERB語音任務中展現了競爭力的表現。作為AuriStream強大表示能力的補充,它能夠生成音頻的延續,這些延續可以在頻譜圖空間中可視化並解碼回音頻,從而提供對模型預測的洞察。總之,我們提出了一個兩階段的語音表示學習框架,以推動開發更接近人類的模型,這些模型能夠高效處理一系列基於語音的任務。
影片重照明是一項具有挑戰性且極具價值的任務,其目標在於替換影片背景的同時,相應地調整前景的照明,實現和諧的融合。在轉換過程中,保持前景的原始屬性(如反照率)並在時間幀間傳播一致的重照明效果至關重要。本文提出Lumen,一個基於大規模影片生成模型開發的端到端影片重照明框架,它接收靈活的文本描述來指導照明和背景的控制。考慮到高質量、同一前景在不同光照條件下的配對影片稀缺,我們構建了一個包含真實與合成影片的大規模數據集。在合成領域,得益於社區中豐富的3D資源,我們利用先進的3D渲染引擎在多樣化環境中策劃影片對。在真實領域,我們採用基於HDR的照明模擬來補充野外配對影片的不足。依托於上述數據集,我們設計了一種聯合訓練課程,有效釋放各領域的優勢,即合成影片中的物理一致性與真實影片中的廣域分佈。為實現這一點,我們在模型中注入了一個領域感知適配器,以解耦重照明與領域外觀分佈的學習。我們建立了一個全面的基準來評估Lumen及現有方法,從前景保持和影片一致性評估的角度出發。實驗結果表明,Lumen能有效地將輸入編輯成具有一致照明和嚴格前景保持的電影級重照明影片。我們的項目頁面:https://lumen-relight.github.io/
我們介紹了G-CUT3R,這是一種新穎的前饋式引導三維場景重建方法,通過整合先驗信息來增強CUT3R模型。與現有僅依賴輸入圖像的前饋方法不同,我們的方法利用了現實場景中常見的輔助數據,如深度、相機校準或相機位置。我們對CUT3R進行了輕量級改進,為每種數據模式引入專用編碼器以提取特徵,並通過零卷積將這些特徵與RGB圖像標記融合。這種靈活的設計使得在推理過程中能夠無縫整合任意組合的先驗信息。在多個基準測試(包括三維重建及其他多視圖任務)上的評估表明,我們的方法展現了顯著的性能提升,證明了其有效利用可用先驗信息的能力,同時保持了與不同輸入模式的兼容性。
我們提出了視覺動作提示(visual action prompts),這是一種統一的動作表示方法,用於生成複雜高自由度交互的動作到視頻轉換,同時保持跨領域的可遷移視覺動態。動作驅動的視頻生成面臨著精確性與通用性之間的權衡:現有方法使用文本、基本動作或粗略掩碼提供了通用性但缺乏精確性,而以代理為中心的動作信號則以跨領域遷移能力為代價提供了精確性。為了平衡動作精確性和動態遷移能力,我們提出將動作“渲染”成精確的視覺提示,作為領域無關的表示,這些表示既保留了幾何精確性,又具備複雜動作的跨領域適應性;具體而言,我們選擇了視覺骨架,因其通用性和易獲取性。我們提出了穩健的流程,從兩個交互豐富的數據源——人與物體交互(HOI)和靈巧的機器人操作——構建骨架,從而實現動作驅動生成模型的跨領域訓練。通過輕量級微調將視覺骨架整合到預訓練的視頻生成模型中,我們能夠精確控制複雜交互的動作,同時保留跨領域動態的學習。在EgoVid、RT-1和DROID上的實驗證明了我們所提出方法的有效性。項目頁面:https://zju3dv.github.io/VAP/。
傳統的多模態學習方法需要昂貴的對齊預訓練來橋接視覺和語言模態,通常將視覺特徵投影到離散的文本標記空間中。我們通過提出Inverse-LLaVA,挑戰了這一範式的兩個基本假設,該方法完全消除了對齊預訓練,並反轉了傳統的映射方向。與其將視覺特徵投影到文本空間,我們的方法將文本嵌入映射到連續的視覺表示空間,並在Transformer的中間層進行融合。通過在注意力機制中選擇性地添加組件,我們實現了視覺和文本表示的動態整合,而無需大規模的圖像-文本對齊數據集。在九個多模態基準上的全面實驗展示了細微的性能權衡:Inverse-LLaVA在推理密集型和認知任務上取得了顯著提升(MM-VET:+0.2%,VizWiz:+1.8%,ScienceQA:+0.2%,認知推理:+27.2%),而在需要記憶視覺-文本關聯的感知任務上則出現了預期的下降(名人識別:-49.5%,OCR:-21.3%)。這些結果首次提供了對齊預訓練對於有效的多模態學習並非必要的實證證據,特別是對於複雜的推理任務。我們的工作確立了一種新範式的可行性,該範式將計算需求減少了45%,挑戰了關於模態融合的傳統智慧,並為保留模態特定特徵的高效多模態架構開闢了新的研究方向。我們的項目網站提供了代碼和其他資源,網址為https://inverse-llava.github.io。
基於可驗證獎勵的強化學習(RLVR)已成為增強大型語言模型(LLMs)的強大範式,OpenAI的o系列便是其成功典範。在RLVR中,獎勵源自可驗證的信號——例如在代碼生成中通過單元測試,或在數學推理中匹配正確答案。儘管有效,這一要求很大程度上將RLVR限制在具有自動可檢查結果的領域。為克服此限制,我們通過整合基於評分標準的獎勵,將RLVR範式擴展至開放式任務,其中精心設計的評分標準作為結構化、模型可解釋的標準,用於自動評分主觀輸出。我們構建了迄今為止最大的評分標準獎勵系統,包含超過10,000條來自人類、LLMs或人機協作的評分標準。實施基於評分標準的強化學習具有挑戰性;我們通過清晰的框架解決這些問題,並推出開源的Qwen-30B-A3B模型,取得了顯著成果:1)僅使用5,000多個樣本,我們的系統在開放式基準測試(尤其是人文領域)上提升了+5.2%,以+2.4%的優勢超越了671B的DeepSeek-V3模型,同時保留了通用和推理能力。2)我們的方法提供了細粒度的風格控制,利用評分標準作為錨點,減輕“AI式”語調,生成更人性化、富有表現力的回應。我們分享了評分標準構建、數據選擇和訓練中的關鍵經驗,並討論了限制和未來發布計劃。
機器遺忘(Machine Unlearning, MU)旨在從已訓練的模型中移除特定訓練數據,使這些被移除的數據不再影響模型的行為,從而履行數據隱私法規下的「被遺忘權」義務。然而,我們觀察到,在這個迅速興起的領域中,研究人員在分析和理解不同MU方法的行為時面臨挑戰,尤其是在MU的三個基本原則:準確性、效率和隱私方面。因此,他們往往依賴於聚合指標和臨時評估,這使得準確評估方法之間的權衡變得困難。為填補這一空白,我們引入了一個視覺分析系統——遺忘比較器(Unlearning Comparator),旨在促進MU方法的系統性評估。我們的系統支持評估過程中的兩項重要任務:模型比較和攻擊模擬。首先,它允許用戶在類別、實例和層次上比較兩個模型的行為,例如由某種方法生成的模型與重新訓練的基準模型,以更好地理解遺忘操作後的變化。其次,我們的系統模擬成員推斷攻擊(Membership Inference Attacks, MIAs)來評估方法的隱私性,其中攻擊者試圖確定特定數據樣本是否屬於原始訓練集。我們通過一個案例研究來評估我們的系統,視覺化分析主流的MU方法,並展示它不僅幫助用戶理解模型行為,還能提供改進MU方法的洞察。
大型推理模型(LRMs)在現有基準測試中展現了卓越的數學問題解決能力,這些測試僅針對定義明確的問題進行評估。然而,這樣的評估設置存在一個關鍵缺陷,因為一個真正智能的代理不僅應該能夠解決問題(作為數學測驗解答者),還應該能夠在問題缺乏足夠信息時主動詢問,從而對用戶請求作出積極回應。為彌補這一缺陷,我們提出了一個包含兩類不同情境下不完整問題的新數據集。基於該數據集,我們對LRMs進行了系統性評估,揭示了它們在主動詢問信息方面的不足。此外,我們還發現了LRMs與過度思考和幻覺相關的行為,並強調了監督微調在學習此類能力中的潛力與挑戰。我們希望為開發具有真正智能而非僅僅解決問題能力的LRMs提供新的見解。
我們探討了多模態大型語言模型(MLLMs)在準確識別輸入圖像旋轉角度(0°、90°、180° 和 270°)方面的能力。這項任務需要強大的視覺推理能力,以檢測旋轉線索並在圖像中定位空間關係,無論其方向如何。為了評估 MLLMs 在這些能力上的表現,我們引入了 RotBench——一個包含 350 張經過人工篩選的生活、肖像和風景圖像的基準測試集。儘管這項任務相對簡單,我們發現包括 GPT-5、o3 和 Gemini-2.5-Pro 在內的幾種最先進的開源和專有 MLLMs 並不能可靠地識別輸入圖像的旋轉。為模型提供輔助信息——包括標題、深度圖等——或使用思維鏈提示僅能帶來微小且不一致的改進。我們的結果表明,大多數模型能夠可靠地識別正置(0°)圖像,而某些模型能夠識別倒置(180°)圖像。但沒有一個模型能夠可靠地區分 90° 和 270° 的旋轉。同時展示圖像在不同方向上的旋轉版本,對於推理模型來說能帶來中等的性能提升,而使用投票的修改設置則能提高較弱模型的表現。我們進一步發現,微調並不能提高模型區分 90° 和 270° 旋轉的能力,儘管它顯著改善了對 180° 圖像的識別。總的來說,這些結果揭示了 MLLMs 在識別旋轉方面的空間推理能力與人類感知之間存在顯著差距。