每日精選AI研究論文及翻譯
大型語言模型(LLMs)的性能根本上取決於推理過程中提供的上下文信息。本調查引入了上下文工程(Context Engineering),這是一門超越簡單提示設計的正式學科,旨在系統性地優化LLMs的信息負載。我們提出了一個全面的分類法,將上下文工程分解為其基礎組件以及將這些組件整合到智能系統中的複雜實現。我們首先考察基礎組件:上下文檢索與生成、上下文處理以及上下文管理。接著,我們探討這些組件如何通過架構整合來創建複雜的系統實現:檢索增強生成(RAG)、記憶系統與工具集成推理,以及多代理系統。通過對1300多篇研究論文的系統分析,本調查不僅為該領域建立了技術路線圖,還揭示了一個關鍵的研究缺口:模型能力之間存在根本性的不對稱。雖然當前模型在經過先進上下文工程的增強後,展現出理解複雜上下文的顯著能力,但在生成同等複雜的長篇輸出方面卻表現出明顯的局限性。解決這一缺口是未來研究的一個重要優先事項。最終,本調查為推進上下文感知AI的研究人員和工程師提供了一個統一的框架。
近期,視覺語言模型(VLMs)的進步通過增加視覺標記的數量提升了性能,這些視覺標記通常比文本標記長得多。然而,我們觀察到,大多數現實場景並不需要如此大量的視覺標記。儘管在少數OCR相關任務中性能顯著下降,但模型在僅使用1/4分辨率的情況下,仍能在大多數其他通用視覺問答(VQA)任務中準確執行。因此,我們提出動態處理不同樣本的不同分辨率,並提出了一種新的視覺標記壓縮範式,即VisionThink。它從下采樣的圖像開始,智能地判斷是否足以解決問題。否則,模型可以輸出一個特殊標記來請求更高分辨率的圖像。與現有的高效VLM方法相比,這些方法使用固定的剪枝比例或閾值來壓縮標記,而VisionThink則根據情況自主決定是否壓縮標記。結果表明,它在OCR相關任務上展現出強大的細粒度視覺理解能力,同時在更簡單的任務上節省了大量視覺標記。我們採用強化學習並提出LLM-as-Judge策略,成功將RL應用於通用VQA任務。此外,我們精心設計了獎勵函數和懲罰機制,以實現穩定且合理的圖像調整調用比例。大量實驗證明了我們方法的優越性、效率和有效性。我們的代碼可在https://github.com/dvlab-research/VisionThink 獲取。
我們介紹了pi^3,這是一種前饋神經網絡,它提供了一種新穎的視覺幾何重建方法,打破了對傳統固定參考視角的依賴。以往的方法通常將重建結果錨定在指定的視點上,這種歸納偏置在參考視點不理想時可能導致不穩定和失敗。與之相反,pi^3採用了一種完全置換等變的架構來預測仿射不變的相機姿態和尺度不變的局部點雲圖,而無需任何參考框架。這一設計使我們的模型對輸入順序具有內在的魯棒性,並且具有高度的可擴展性。這些優勢使得我們這種簡單且無偏置的方法在多種任務上達到了最先進的性能,包括相機姿態估計、單目/視頻深度估計以及密集點雲圖重建。代碼和模型均已公開提供。
長度泛化能力,即解決訓練期間未見過的長序列問題的能力,是基於Transformer的大型語言模型(LLM)面臨的核心挑戰。儘管現有研究主要集中在數據驅動的方法來處理算術運算和符號操作任務,這些方法往往具有任務特定性且整體性能有限。為尋求更通用的解決方案,本文聚焦於更廣泛的可計算推理問題,即算法能夠解決的問題,因此圖靈機也能解決。從這一角度出發,本文提出了圖靈機模仿學習(TAIL)來提升LLM的長度泛化能力。TAIL通過計算機程序合成模仿圖靈機執行過程的思維鏈(CoT)數據,將推理步驟線性擴展為原子狀態,以緩解捷徑學習,並引入顯式記憶提取機制,降低基本操作中動態和長距離數據訪問的難度。為驗證TAIL的可靠性和普適性,我們構建了一個涵蓋8類算法和18個任務的具有挑戰性的合成數據集。無需繁瑣的調整,TAIL僅使用合成數據就顯著提升了Qwen2.5-7B在各種任務上的長度泛化能力和性能,超越了先前的方法和DeepSeek-R1。實驗結果表明,圖靈機中的關鍵概念,而非思維方式,對TAIL實現長度泛化至關重要,模型在其注意力層中展現出與圖靈機特性一致的讀寫行為。這項工作為未來從合成數據中學習LLM推理提供了一個有前景的研究方向。
可控字幕生成對於精確的多模態對齊和指令遵循至關重要,然而現有模型往往缺乏細粒度控制和可靠的評估協議。為解決這一問題,我們提出了AnyCap項目,這是一個涵蓋模型、數據集和評估的綜合解決方案。我們引入了AnyCapModel(ACM),這是一個輕量級的即插即用框架,能夠在不重新訓練基礎模型的情況下,增強現有基礎模型在全方位模態字幕生成中的可控性。ACM重用了基礎模型的原始字幕,同時結合用戶指令和模態特徵來生成改進的字幕。為彌補可控多模態字幕生成中數據稀缺的問題,我們構建了AnyCapDataset(ACD),涵蓋了三種模態、28種用戶指令類型和30萬條高質量數據條目。我們進一步提出了AnyCapEval,這是一個新的基準測試,通過解耦內容準確性和風格保真度,為可控字幕生成提供了更可靠的評估指標。ACM在AnyCapEval上顯著提升了多種基礎模型的字幕質量。值得注意的是,ACM-8B將GPT-4o的內容分數提高了45%,風格分數提高了12%,並且在廣泛使用的基準測試如MIA-Bench和VidCapBench上也取得了顯著的提升。
本文探討了以稀疏視角視頻作為輸入的高保真人體視圖合成挑戰。先前的方法通過利用4D擴散模型來生成新視角的視頻,以解決觀測不足的問題。然而,這些模型生成的視頻往往缺乏時空一致性,從而降低了視圖合成的質量。本文提出了一種新穎的滑動迭代去噪過程,以增強4D擴散模型的時空一致性。具體而言,我們定義了一個潛在網格,其中每個潛在變量編碼了特定視角和時間戳下的圖像、相機姿態和人體姿態,然後使用滑動窗口在空間和時間維度上交替對潛在網格進行去噪,最後從相應的去噪潛在變量中解碼出目標視角的視頻。通過迭代滑動,信息在潛在網格中充分流動,使擴散模型能夠獲得較大的感受野,從而增強輸出的4D一致性,同時使GPU內存消耗保持在可承受範圍內。在DNA-Rendering和ActorsHQ數據集上的實驗表明,我們的方法能夠合成高質量且一致的新視角視頻,並顯著優於現有方法。請訪問我們的項目頁面查看互動演示和視頻結果:https://diffuman4d.github.io/。
從靜態圖像生成富有表現力的面部動畫是一項具有挑戰性的任務。先前依賴於顯式幾何先驗(如面部標誌點或3DMM)的方法,在跨角色重現時常出現偽影,且難以捕捉細微的情感。此外,現有方法缺乏對多角色動畫的支持,因為來自不同個體的驅動特徵經常相互干擾,使任務複雜化。為應對這些挑戰,我們提出了FantasyPortrait,這是一個基於擴散變換器的框架,能夠為單一及多角色場景生成高保真且情感豐富的動畫。我們的方法引入了一種表情增強學習策略,利用隱式表徵來捕捉與身份無關的面部動態,從而提升模型渲染細膩情感的能力。針對多角色控制,我們設計了一種掩碼交叉注意力機制,確保獨立而協調的表情生成,有效防止特徵干擾。為推動該領域的研究,我們提出了Multi-Expr數據集和ExprBench,這些是專門為訓練和評估多角色肖像動畫設計的數據集和基準。大量實驗表明,FantasyPortrait在定量指標和定性評估上均顯著優於現有最先進的方法,尤其在具有挑戰性的跨角色重現和多角色情境中表現出色。我們的項目頁面是https://fantasy-amap.github.io/fantasy-portrait/。
三維空間中的空間推理是人類認知的核心,對於導航和操作等具身任務不可或缺。然而,最先進的視覺-語言模型(VLMs)在處理諸如預測自我中心運動後場景變化這樣簡單的任務時,常常顯得力不從心:它們能感知二維圖像,但缺乏對三維動態的內在建模。因此,我們提出了MindJourney,這是一個測試時擴展框架,通過將VLM與基於視頻擴散的可控世界模型相結合,賦予其這一缺失的能力。VLM迭代地勾勒出簡潔的相機軌跡,而世界模型則在每一步合成相應的視圖。隨後,VLM基於在交互探索過程中收集的多視角證據進行推理。無需任何微調,我們的MindJourney在代表性空間推理基準SAT上平均提升了超過8%的性能,表明將VLM與世界模型配對用於測試時擴展,為實現穩健的三維推理提供了一條簡單、即插即用的途徑。同時,我們的方法也優化了通過強化學習訓練的測試時推理VLM,這展示了利用世界模型進行測試時擴展的潛力。
我们推出了AbGen,这是首个旨在评估大语言模型(LLMs)在科学研究中设计消融实验能力的基准。AbGen包含从807篇自然语言处理(NLP)论文中提取的1,500个专家标注示例。在此基准中,LLMs的任务是根据给定的研究背景,为指定模块或过程生成详细的消融实验设计方案。我们对领先的LLMs(如DeepSeek-R1-0528和o4-mini)的评估显示,这些模型在消融实验设计的重要性、忠实性和合理性方面与人类专家存在显著性能差距。此外,我们证明当前的自动化评估方法在我们的任务中并不可靠,因为它们与人类评估相比存在显著差异。为了更好地探究这一点,我们开发了AbGen-Eval,这是一个元评估基准,旨在评估常用自动化评估系统在测量LLMs在我们任务上表现的可靠性。我们在AbGen-Eval上研究了多种LLM-as-Judge系统,为未来开发更有效、更可靠的基于LLM的复杂科学任务评估系统提供了见解。
稀疏自編碼器已成為解讀大型語言模型內部表徵的強大工具,然而它們往往無法捕捉訓練語料中不常見的領域特定特徵。本文提出了一種殘差學習方法,旨在解決這種特徵盲區問題,而無需進行完整的重新訓練。我們建議訓練一個次級稀疏自編碼器,專門用於建模預訓練稀疏自編碼器在領域特定文本上的重建誤差,從而有效捕捉主模型遺漏的特徵。通過在推理過程中將兩個模型的輸出相加,我們在多個專業領域中展示了在大型語言模型交叉熵和解釋方差指標上的顯著改進。實驗表明,該方法能有效地將新領域知識融入現有稀疏自編碼器中,同時保持其在通用任務上的性能。這一方法使研究人員能夠有選擇性地增強稀疏自編碼器在特定領域的可解釋性,為大型語言模型的定向機制解釋開闢了新的可能性。
語言模型(LMs)通過簡單的微調來適應新的數據分佈具有挑戰性。這是由於其子詞分詞器的剛性,通常在適應過程中保持不變。這種不靈活性往往導致分詞效率低下,造成分佈外領域、未見語言或文字的分詞過度碎片化。在本研究中,我們開發了具有可學習分詞器的字節級語言模型,使分詞過程具有自適應性。我們的模型包含一個子模塊,該模塊學習預測輸入字節序列之間的邊界,將其編碼為可變長度的片段。現有的無分詞器方法通過使用輔助損失來訓練這個邊界預測器,該損失在訓練語料庫中強制執行固定的壓縮率,從而引入了一種新的剛性。我們提出了FLEXITOKENS,這是一種簡化的訓練目標,能夠在適應過程中實現顯著更大的靈活性。通過在多個多語言基準測試、形態多樣性任務和領域中的評估,我們證明FLEXITOKENS始終如一地減少了分詞的過度碎片化,並在下游任務性能上相比子詞和其他基於梯度的分詞器實現了高達10%的提升。我們的實驗代碼和數據將在https://github.com/owos/flexitokens 發佈。
視頻幀插值(Video Frame Interpolation, VFI)旨在基於兩個連續的相鄰幀I_0和I_1來預測中間幀I_n(我們使用n來表示視頻中的時間,以避免與擴散模型中的時間步t產生符號重疊)。近期的方法在這一任務中應用了擴散模型(包括基於圖像的和基於視頻的),並取得了強勁的性能。然而,基於圖像的擴散模型無法提取時間信息,且與非擴散方法相比效率較低。基於視頻的擴散模型雖能提取時間信息,但其在訓練規模、模型大小和推理時間上過於龐大。為緩解上述問題,我們提出了時序感知潛在布朗橋擴散視頻幀插值(Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation, TLB-VFI),這是一種高效的基於視頻的擴散模型。通過我們提出的3D小波門控和時序感知自編碼器從視頻輸入中提取豐富的時間信息,我們的方法在最具挑戰性的數據集上相較於最新的基於圖像的擴散模型,FID提升了20%。同時,由於存在豐富的時間信息,我們的方法在參數數量減少3倍的情況下仍能實現強勁的性能。這種參數的減少帶來了2.3倍的加速。通過結合光流指導,我們的方法所需的訓練數據量減少了9000倍,並且參數數量比基於視頻的擴散模型減少了20倍以上。代碼和結果可在我們的項目頁面獲取:https://zonglinl.github.io/tlbvfi_page。
我們推出Voxtral Mini和Voxtral Small兩款多模態音頻對話模型。Voxtral經過訓練,能夠理解語音音頻和文本文件,在多樣化的音頻基準測試中達到了頂尖水平,同時保持了強大的文本處理能力。Voxtral Small在性能上超越多款閉源模型,且體積小巧,足以在本地運行。其32K上下文窗口使模型能夠處理長達40分鐘的音頻文件及長時間的多輪對話。我們還貢獻了三個基準測試,用於評估語音理解模型在知識和瑣事方面的表現。兩款Voxtral模型均以Apache 2.0許可證發布。
多模態大型語言模型(MLLMs)的最新進展釋放了強大的跨模態推理能力,但也引發了新的安全隱憂,尤其是在面對對抗性多模態輸入時。為了提升MLLMs在推理過程中的安全性,我們引入了一種模組化且自適應的推理時干預技術——AutoSteer,無需對底層模型進行任何微調。AutoSteer整合了三個核心組件:(1) 一種新穎的安全意識評分(SAS),能自動識別模型內部層次間最相關的安全差異;(2) 一個自適應的安全探測器,訓練來估計從中間表示生成有害輸出的可能性;以及(3) 一個輕量級的拒絕頭(Refusal Head),在檢測到安全風險時選擇性地介入以調節生成過程。在LLaVA-OV和Chameleon模型上,針對多樣化的安全關鍵基準測試的實驗表明,AutoSteer顯著降低了文本、視覺及跨模態威脅的攻擊成功率(ASR),同時保持了模型的通用能力。這些發現使AutoSteer成為一個實用、可解釋且有效的框架,為多模態AI系統的安全部署提供了保障。
我們提出了愛因斯坦場(Einstein Fields),這是一種神經表示方法,旨在將計算密集型的四維數值相對論模擬壓縮為緊湊的隱式神經網絡權重。通過建模度量張量——廣義相對論的核心張量場,愛因斯坦場使得物理量能夠通過自動微分推導出來。然而,與傳統的神經場(如符號距離場、佔用場或輻射場)不同,愛因斯坦場是神經張量場,其關鍵區別在於,當將廣義相對論的時空幾何編碼為神經場表示時,動力學作為副產物自然湧現。愛因斯坦場展現出顯著的潛力,包括四維時空的連續體建模、與網格無關性、存儲效率、導數精度以及易用性。我們在廣義相對論的幾個經典測試平臺上應對了這些挑戰,並發布了一個基於JAX的開源庫,為數值相對論的可擴展性和表達性方法鋪平了道路。代碼可在https://github.com/AndreiB137/EinFields獲取。