每日精選AI研究論文及翻譯
多大型語言模型(Multi-LLM)系統利用多樣化大型語言模型的互補優勢,實現了單一模型無法達到的性能與效率提升。在現有設計中,LLM之間通過文本進行通信,這迫使內部表示轉化為輸出標記序列。這一過程不僅損失了豐富的語義信息,還引入了逐標記生成的延遲。基於這些限制,我們提出疑問:LLM能否超越文本進行通信?預實驗表明,豐富KV-Cache的語義可以在不增加緩存大小的情況下提升響應質量,這支持了KV-Cache作為模型間通信的有效媒介。因此,我們提出了Cache-to-Cache(C2C),一種用於LLM之間直接語義通信的新範式。C2C利用神經網絡將源模型的KV-Cache投影並融合到目標模型的KV-Cache中,從而實現直接的語義傳遞。一個可學習的門控機制選擇受益於緩存通信的目標層。與文本通信相比,C2C充分利用了兩個模型的深度專用語義,同時避免了顯式的中間文本生成。實驗顯示,C2C比單個模型實現了8.5-10.5%的平均準確率提升。它進一步優於文本通信範式約3.0-5.0%,同時在延遲上實現了平均2.0倍的加速。我們的代碼可在https://github.com/thu-nics/C2C獲取。
視覺標記化仍然是統一自回歸範式下視覺理解與生成的核心挑戰。現有方法通常採用離散潛在空間中的標記器,以與大型語言模型的標記對齊,其中量化誤差可能限制語義表達能力,並削弱視覺語言理解的能力。為解決這一問題,我們引入了MingTok,這是一系列具有連續潛在空間的新型視覺標記器,用於統一的自回歸生成與理解。雖然理解任務偏好判別性的高維特徵,生成任務則傾向於緊湊的低層次編碼。因此,為調和這些相互競爭的需求,MingTok採用了包含低層次編碼、語義擴展和視覺重建的三階段序列架構。基於此,Ming-UniVision消除了對任務特定視覺表示的需求,並將多樣的視覺語言任務統一在單一的自回歸預測範式下。通過將理解與生成都表述為共享連續空間中的下一個標記預測,它無縫支持多輪、上下文相關的任務,如迭代理解、生成和編輯。實證研究表明,使用統一的連續視覺表示能夠調和理解與生成任務對標記器的競爭性要求,從而在兩個領域均達到最先進的性能水平。我們希望我們的研究發現能促進連續域中的統一視覺標記化。推理代碼和模型權重已發布,以惠及社區。
我们推出Lumina-DiMOO,一个开源的基础模型,旨在实现无缝的多模态生成与理解。Lumina-DiMOO通过采用完全离散的扩散建模技术处理多种模态的输入与输出,从而与先前的统一模型区分开来。这一创新方法使Lumina-DiMOO在采样效率上超越了以往的自回归(AR)或混合AR-扩散范式,并能够灵活支持广泛的多模态任务,包括文本到图像生成、图像到图像生成(如图像编辑、主题驱动生成及图像修复等),以及图像理解。Lumina-DiMOO在多个基准测试中达到了最先进的性能,超越了现有的开源统一多模态模型。为了促进多模态与离散扩散模型研究的进一步发展,我们向社区公开了代码与检查点。项目页面:https://synbol.github.io/Lumina-DiMOO。
當前的大型語言模型(LLMs)和口語模型(SLMs)僅在用戶完成其輪次後才開始思考並採取行動。這阻礙了模型在用戶發言期間進行互動,並可能導致其等待思考時的高響應延遲。因此,在接收完整輸入後才進行思考的方式並不適合語音對語音交互,因為實時、低延遲的交流至關重要。我們通過觀察到人類自然具備“邊聽邊想”的能力來解決這一問題。本文中,我們提出了SHANKS,這是一個通用的推理框架,使SLMs能夠在聆聽用戶輸入的同時生成未說出口的思維鏈推理。SHANKS將輸入語音以固定時長的片段進行流式處理,一旦接收到一個片段,便基於所有先前的語音和推理生成未說出口的推理,而用戶則繼續發言。SHANKS利用這些未說出口的推理來決定是否打斷用戶以及調用工具來完成任務。我們展示了SHANKS在兩種情境下增強了用戶與SLM的實時互動:(1)當用戶逐步展示數學問題的解決方案時,SHANKS能夠聆聽、推理,並在用戶出錯時打斷,其打斷準確率比不經思考就打斷的基線模型高出37.1%;(2)在工具增強的對話中,SHANKS能在用戶完成其輪次前完成56.9%的工具調用。總體而言,SHANKS推動了模型在整個對話過程中持續思考,而不僅僅是在輪次結束後。SHANKS的動態演示可訪問https://d223302.github.io/SHANKS/查看。
視頻DiTs在視頻生成方面取得了進展,但它們在建模多實例或主客體互動方面仍面臨挑戰。這引發了一個關鍵問題:這些模型內部如何表徵互動?為解答此問題,我們精心構建了MATRIX-11K,這是一個包含互動感知字幕和多實例遮罩軌跡的視頻數據集。利用該數據集,我們進行了系統分析,形式化了視頻DiTs的兩個視角:語義基礎,通過視頻到文本的注意力機制,評估名詞和動詞詞彙是否捕捉到實例及其關係;以及語義傳播,通過視頻到視頻的注意力機制,評估實例綁定是否跨幀持續。我們發現這兩種效應集中於一小部分互動主導層中。基於此,我們引入了MATRIX,這是一種簡單而有效的正則化方法,它將視頻DiTs特定層的注意力與MATRIX-11K數據集中的多實例遮罩軌跡對齊,從而增強了基礎和傳播。我們進一步提出了InterGenEval,一個用於互動感知視頻生成的評估協議。在實驗中,MATRIX提升了互動保真度和語義對齊,同時減少了漂移和幻覺。廣泛的消融實驗驗證了我們的設計選擇。代碼和權重將被公開。
近期在視覺與語言基礎模型上的進展,顯著提升了多模態理解、推理和生成的能力,激發了人們將此類能力擴展到具身環境中的興趣,這主要通過視覺-語言-動作(VLA)模型來實現。然而,大多數VLA模型仍依賴於監督式微調(SFT)進行訓練,這種方法在分佈變化下因錯誤累積而難以泛化。強化學習(RL)提供了一種有前景的替代方案,它通過直接優化任務表現來進行交互,但現有的嘗試仍顯零散,缺乏一個公平且系統的平臺來比較不同模型架構和算法設計。為填補這一空白,我們引入了RLinf-VLA,這是一個統一且高效的框架,用於VLA模型的可擴展RL訓練。該系統採用了高度靈活的資源分配設計,解決了在RL+VLA訓練中整合渲染、訓練和推理的挑戰。特別是對於GPU並行化的模擬器,RLinf-VLA實現了一種新穎的混合細粒度管道分配模式,使訓練速度提升了1.61倍至1.88倍。通過統一的接口,RLinf-VLA無縫支持多種VLA架構(如OpenVLA、OpenVLA-OFT)、多種RL算法(如PPO、GRPO)以及各種模擬器(如ManiSkill、LIBERO)。在模擬環境中,一個統一模型在130個LIBERO任務上達到了98.11%的成功率,在25個ManiSkill任務上達到了97.66%的成功率。除了實證性能外,我們的研究還提煉出一套將RL應用於VLA訓練的最佳實踐,並揭示了這一整合中的新興模式。此外,我們展示了在真實世界Franka機器人上的初步部署,其中RL訓練的策略展現出比SFT訓練更強的泛化能力。我們期望RLinf-VLA能作為加速和標準化具身智能研究的基礎。
大型語言模型(LLMs)已催生了「氛圍編碼」的實踐,使用者透過自然語言互動,利用LLMs生成並迭代精煉代碼,直至其通過他們的「氛圍檢驗」。氛圍檢驗與現實世界的人類偏好緊密相連,並超越了功能性:解決方案應感覺正確、閱讀清晰、保留意圖且保持準確。然而,當前的代碼評估仍固守於pass@k指標,僅捕捉功能正確性,忽略了使用者日常應用的非功能性指令。本文假設,指令遵循是構成氛圍檢驗中代表人類編碼偏好的缺失環節,除了功能正確性之外。為了量化模型遵循代碼指令的能力並提供可測量的信號,我們提出了VeriCode,一個包含30種可驗證代碼指令的分類體系及其對應的確定性驗證器。我們利用這一分類體系擴充了現有的評估套件,從而創建了Vibe Checker,一個用於評估代碼指令遵循與功能正確性的測試平台。通過對31個領先LLMs的評估,我們發現即使最強的模型在遵循多條指令方面也存在困難,並顯示出明顯的功能退化。最重要的是,功能正確性與指令遵循的綜合評分與人類偏好最為相關,後者在現實編程任務中成為主要的區分因素。我們的工作識別了氛圍檢驗的核心要素,為基準測試和開發更符合使用者編碼偏好的模型提供了具體路徑。
大型語言模型(LLMs)在處理知識密集型和複雜推理任務時,越來越多地依賴於多輪工具整合規劃。現有的實現通常依賴於單一代理,但這些方法存在上下文長度有限和工具響應噪聲的問題。一個自然的解決方案是採用多代理框架,通過規劃者和工作者代理來管理上下文。然而,現有方法尚不支持工具整合多代理框架的有效強化學習後訓練。為解決這一問題,我們提出了多代理工具整合策略優化(MATPO),該方法通過角色特定的提示,在單一LLM實例中訓練不同的角色(規劃者和工作者),並利用強化學習進行優化。MATPO基於規劃者和工作者輪次間的信用分配機制,這一設計消除了部署多個LLM的需求,從而節省了內存,同時保留了專業化的優勢。在GAIA-text、WebWalkerQA和FRAMES上的實驗表明,MATPO相較於單代理基線模型,平均性能提升了18.38%,並且對工具輸出的噪聲表現出更強的魯棒性。我們的研究結果強調了在單一LLM中統一多個代理角色的有效性,並為穩定高效的多代理強化學習訓練提供了實用見解。
長序列建模面臨著一個根本性的權衡:一方面,類似RNN的模型通過固定大小的壓縮記憶體實現高效性;另一方面,基於注意力機制的Transformer模型則通過無損增長的記憶體保持高保真度。受認知科學中的多存儲模型啟發,我們提出了一種人工神經網路的記憶框架。該方法將Transformer的鍵值(KV)緩存作為無損的短期記憶,維持一個滑動窗口,同時通過一個可學習的模組——人工海馬網路(Artificial Hippocampus Network, AHN)——將窗口外的資訊遞歸壓縮為固定大小的緊湊長期記憶。為驗證這一框架,我們使用現代RNN架構(包括Mamba2、DeltaNet和Gated DeltaNet)實例化了AHN。在長上下文基準測試LV-Eval和InfiniteBench上的大量實驗表明,配備AHN的模型始終優於滑動窗口基線,並達到與全注意力模型相當甚至更優的性能,同時大幅降低了計算和記憶體需求。例如,在Qwen2.5-3B-Instruct模型中引入AHN,將推理FLOPs減少了40.5%,記憶體緩存減少了74.0%,同時其在LV-Eval(128k序列長度)上的平均得分從4.41提升至5.88。代碼已開源於:https://github.com/ByteDance-Seed/AHN。
近期前沿模型采用长链思维推理来探索上下文中的解决方案空间,从而实现更强的性能。尽管许多研究致力于通过蒸馏构建更小但能力不减的模型,但大多聚焦于英语,对于特定语言的推理知之甚少。为填补这一空白,我们首先引入了**语言混合链式思维(Language-Mixed CoT)**,这是一种在英语与目标语言间切换的推理框架,利用英语作为锚点以优化推理过程,同时最小化翻译带来的误差。以韩语为例,我们精心构建了**Yi-Sang**数据集:包含从网络问答、考试、STEM及代码中收集的579万条原生韩语提示;由Qwen3-32B生成的370万条长推理轨迹;以及一个针对性的26万条高价值子集。我们在六个模型系列(Qwen2.5、Llama-3.1、Gemma-3等)上训练了九种模型(4B至35B)。其中,最佳模型**KO-REAson-35B**实现了顶尖性能,整体平均得分最高(64.0 ± 25),在9个基准测试中5个排名第一,其余位列第二。中小型模型也显著受益,在评估的九个基准上平均提升了18.6分。消融实验表明,**语言混合链式思维**比单语链式思维更为有效,同时带来了跨语言和多模态性能的提升。我们公开了数据整理流程、评估系统、数据集及模型,以推动特定语言推理研究的进步。数据与模型集合请访问:https://huggingface.co/KOREAson。
儘管非洲語言佔全球語言總數近三分之一,但在現代自然語言處理(NLP)技術中,這些語言卻嚴重缺乏支持,其中88%被歸類為在計算語言學中極度代表性不足或完全被忽視。我們在此介紹非洲語言實驗室(All Lab),這是一項全面的研究計劃,旨在通過系統化的數據收集、模型開發和能力建設來彌補這一技術鴻溝。我們的主要貢獻包括:(1)一個質量控制的數據收集流程,產生了迄今最大的非洲多模態語音和文本數據集,涵蓋40種語言,包含190億個單語文本標記和12,628小時的對齊語音數據;(2)廣泛的實驗驗證,表明我們的數據集結合微調後,相較於基準模型取得了顯著提升,在31種評估語言中平均提高了23.69 ChrF++、0.33 COMET和15.34 BLEU分數;(3)一個結構化的研究計劃,成功指導了十五位早期職業研究人員,建立了可持續的本地能力。我們與Google翻譯的對比評估顯示,在多種語言中表現出競爭力,同時也指出了需要持續改進的領域。
追求計算效率促使了低精度格式在訓練變換器模型中的廣泛採用。然而,這一進展常因眾所周知的訓練不穩定性而受阻。本文首次對一個長期未解的失敗案例提供了機制性解釋,即在低精度設置下使用閃爍注意力進行訓練時,會導致災難性的損失爆炸。我們深入的分析揭示,這一失敗並非隨機現象,而是由兩個相互交織的現象所引起:注意力機制內相似低秩表示的出現,以及低精度算術中固有偏見舍入誤差的累積效應。我們展示了這些因素如何形成一個錯誤積累的惡性循環,從而破壞權重更新,最終導致訓練動態失控。為驗證我們的發現,我們對閃爍注意力進行了最小程度的修改,以減輕舍入誤差中的偏見。這一簡單的改變穩定了訓練過程,證實了我們的分析,並為這一持久問題提供了實際的解決方案。
大型推理模型(LRMs)在複雜的多步驟推理中展現了強大的能力,為自動化優化建模開闢了新的機會。然而,現有的領域適應方法最初是為早期的指令調優模型設計的,往往無法充分利用現代LRMs的高級推理模式——特別是,我們發現直接對傳統的非反思性數據集進行微調僅能帶來有限的增益。為了充分發揮LRMs固有的推理能力,我們提出了CALM(輕量修正適應框架),這是一個在LRMs原生推理模式下逐步精煉優化建模任務的框架。在CALM中,專家干預者識別推理缺陷並提供簡明的修正提示,LRM則將這些提示融入以生成改進的推理軌跡。這些干預僅修改了不到2.6%的生成標記,但通過監督微調生成了高質量的數據進行軟適應。隨後,適應後的模型通過強化學習進一步改進。基於CALM,我們開發了STORM(智能思維優化推理模型),這是一個擁有40億參數的LRM,在五個流行的優化建模基準測試中達到了68.9%的平均準確率,與一個6710億參數的LRM性能相當。這些結果表明,基於提示的動態數據合成不僅保留了現代LRMs的原生推理模式,還放大了這些模式,為挑戰性優化建模任務提供了一條更有效且可擴展的途徑,以實現專家級性能。
強化學習(RL)最近已成為訓練能夠產生長鏈思維(LongCoT)的推理大型語言模型(LLM)的強大方法。然而,標準的RL“思考環境”,其中狀態是提示加上所有先前的推理標記,使得狀態無界,並迫使基於注意力的策略在思維延長時支付二次方的計算成本。我們重新審視了環境本身。我們提出了馬爾可夫思維,這是一種範式,其中策略在條件於固定大小狀態的情況下推進推理,從而將思維長度與上下文大小解耦。這立即帶來了線性計算和恆定內存的好處。我們通過Delethink實例化了這一想法,這是一個將推理結構化為固定大小塊的RL環境。在每個塊內,模型像往常一樣思考;在邊界處,環境重置上下文並用簡短的延續重新初始化提示。通過RL,策略學會在每個塊的末尾寫入足夠的文本狀態,以便在重置後無縫地繼續推理。在這種環境中訓練的R1-Distill 1.5B模型在8K標記的塊中進行推理,但思維長度可達24K標記,與使用24K預算訓練的LongCoT-RL相當或超越。在測試時擴展中,Delethink在LongCoT停滯的地方繼續改進。線性計算的效果顯著:我們經驗估計在96K平均思維長度下,LongCoT-RL的成本為27個H100月,而Delethink僅為7個。在RL初始化時的分析顯示,現成的推理模型(1.5B-120B)通常在不同基準上零樣本採樣馬爾可夫軌跡,提供了使RL在大規模上有效的正樣本。我們的結果表明,重新設計思考環境是一個強大的槓桿:它使極長推理無需二次方開銷,並為高效、可擴展的推理LLM開闢了道路。
長上下文模型(LCMs)在處理長序列方面展現了巨大潛力,促進了許多實際應用的發展。LCMs的成功可歸因於其能在上下文中定位隱含的關鍵信息,以進行進一步的預測。然而,近期研究揭示,LCMs往往容易受到上下文噪音(即不相關的標記)的影響,這些噪音可能誤導模型的注意力。本文對上下文噪音進行了細緻分析,並提出了一種有效的度量方法——積分梯度(IG)分數,以檢測並量化上下文中的噪音信息。我們的研究發現,即使簡單地緩解檢測到的上下文噪音,也能顯著提升模型對關鍵標記的注意力,並有益於後續的預測。基於這一洞察,我們提出了上下文去噪訓練(CDT),這是一種簡單而有效的訓練策略,旨在提高對關鍵標記的注意力,同時強化其對模型預測的影響。在上下文窗口擴展和長上下文對齊設置下的四項任務中,廣泛的實驗證明了CDT的優越性。值得注意的是,當使用CDT訓練時,一個開源的8B模型能夠達到與GPT-4o(51.00)相當的性能(50.92)。
Transformer在序列建模方面表現卓越,但面臨二次方複雜度的挑戰,而線性注意力雖提升了效率,卻常在長上下文情境下犧牲召回準確率。本研究提出了一種新穎的混合架構——原生混合注意力(NHA),它將線性注意力與全注意力相結合,並將層內與層間混合集成於統一的層設計中。NHA通過線性RNN更新鍵值槽來維持長期上下文,並利用滑動窗口中的短期令牌進行增強。隨後,對所有鍵值應用單一的softmax注意力操作,實現了無需額外融合參數的逐令牌與逐頭部上下文依賴權重分配。層間行為通過單一超參數——滑動窗口大小來控制,這使得在保持所有層結構統一的同時,能夠在純線性與全注意力之間平滑調整。實驗結果表明,NHA在召回密集型與常識推理任務上超越了Transformer及其他混合基線模型。此外,預訓練的大型語言模型(LLM)可與NHA進行結構性混合,在保持競爭力準確率的同時,顯著提升效率。代碼已開源於https://github.com/JusenD/NHA。
大規模文本至圖像擴散模型雖功能強大,卻面臨著高昂的計算成本。現有的一次性網絡剪枝方法因其迭代去噪的特性,難以直接應用於此類模型。為彌合這一差距,本文提出了OBS-Diff,一種新穎的一次性剪枝框架,旨在實現大規模文本至圖像擴散模型的精確且無需訓練的壓縮。具體而言,(i) OBS-Diff復興了經典的最優腦外科手術(Optimal Brain Surgeon, OBS),使其適應現代擴散模型的複雜架構,並支持多樣化的剪枝粒度,包括非結構化、N:M半結構化及結構化(多頭注意力機制頭部與前饋神經網絡神經元)稀疏性;(ii) 為使剪枝標準與擴散過程的迭代動態相匹配,通過從誤差累積的角度審視問題,我們提出了一種新穎的時間步感知Hessian矩構建方法,該方法融合了對數遞減加權方案,賦予早期時間步更大的重要性,以減輕潛在的誤差累積;(iii) 此外,提出了一種計算高效的組序貫剪枝策略,以分攤昂貴的校準過程。大量實驗表明,OBS-Diff在擴散模型的一次性剪枝上達到了最先進水平,在視覺質量僅有最小程度下降的情況下實現了推理加速。
大型語言模型(LLMs)與現實世界的快速發展已超越了廣泛使用的評估基準的靜態特性,這引發了對其評估LLM事實性可靠性的擔憂。儘管大量研究仍依賴於流行但陳舊的基準,這些基準與現實世界事實及現代LLMs的時間錯位,以及它們對LLM事實性評估的影響,仍未得到充分探討。因此,在本研究中,我們通過檢驗五個流行的事實性基準和八個不同年份發布的LLMs,對這一問題進行了系統性調查。我們定制了一個最新的事實檢索管道和三種指標,以量化基準的老化及其對LLM事實性評估的影響。實驗結果與分析表明,廣泛使用的事實性基準中有相當一部分樣本已過時,導致對LLM事實性的評估不可靠。我們希望我們的工作能提供一個測試平台,用於評估基準在LLM事實性評估中的可靠性,並激發更多關於基準老化問題的研究。代碼可在https://github.com/JiangXunyi/BenchAge獲取。
現有強化學習中提取獎勵信號的方法通常依賴於標記數據和專門的訓練分割,這種設置與人類直接從環境中學習的方式形成對比。在本研究中,我們提出了TTRV(測試時強化視覺理解)方法,通過在推理時動態調整模型來增強視覺語言理解,而無需任何標記數據。具體而言,我們基於基礎模型輸出的頻率設計獎勵,並對每個測試樣本進行多次推理,從而改進了群體相對策略優化(GRPO)框架。此外,我們還提出通過同時獎勵模型獲得輸出經驗分佈的低熵來控制模型輸出的多樣性。我們的方法在物體識別和視覺問答(VQA)任務中均取得了穩定的提升,分別最高提升了52.4%和29.8%,並在16個數據集上平均提升了24.6%和10.0%。值得注意的是,在圖像識別任務中,應用於InternVL 8B的TTRV在8個基準測試上平均超越了GPT-4o 2.3%,同時在VQA任務中保持高度競爭力,這表明測試時強化學習能夠匹配甚至超越最強的專有模型。最後,我們發現了測試時強化學習在視覺語言模型中的許多有趣特性:例如,即使在極度數據受限的情況下,僅對一個隨機選擇的未標記測試樣本進行適應,TTRV仍能在識別任務中帶來高達5.5%的非平凡提升。
在具身智能领域,一个根本性挑战在于开发表达力强且紧凑的状态表示,以实现高效的世界建模与决策制定。然而,现有方法往往难以达成这一平衡,产生的表示要么过于冗余,要么缺乏任务关键信息。我们提出了一种无监督方法,利用轻量级编码器和预训练的扩散变换器(DiT)解码器,学习高度压缩的双令牌状态表示,充分发挥其强大的生成先验。我们的表示高效、可解释,并能无缝集成到现有的基于视觉语言动作(VLA)的模型中,在LIBERO数据集上提升性能14.3%,在现实世界任务成功率上提升30%,且推理开销极小。更重要的是,我们发现通过潜在插值获得的这两个令牌之间的差异,自然形成了一种高效的潜在动作,可进一步解码为可执行的机器人动作。这一涌现能力揭示出,我们的表示在没有显式监督的情况下捕捉到了结构化动态。我们将此方法命名为StaMo,因其能够从静态图像编码的紧凑状态表示中学习可泛化的机器人运动,挑战了现有方法对复杂架构和视频数据学习潜在动作的依赖。由此产生的潜在动作还增强了策略协同训练,以10.4%的优势超越先前方法,并提升了可解释性。此外,我们的方法能够有效扩展到多种数据源,包括真实世界机器人数据、模拟数据以及人类第一人称视角视频。
近期,针对多模态大语言模型(MLLMs)推理加速的研究主要集中在视觉令牌压缩上。这些方法的有效性通常通过测量在既定基准上的准确率下降来评估,比较压缩前后模型的性能。然而,这些基准最初设计用于评估MLLMs的感知与推理能力,而非专门针对压缩技术。因此,直接将其应用于视觉令牌压缩任务时,存在任务不匹配的问题。引人注目的是,我们的研究发现,在多个广泛使用的基准测试中,简单的图像下采样方法持续优于许多先进的压缩技术。通过大量实验,我们得出以下观察:(i)当前基准在视觉令牌压缩任务中存在噪声。(ii)下采样能够作为一种数据过滤器,用于评估视觉令牌压缩任务中样本的难度。基于这些发现,我们引入了VTC-Bench,这是一个包含数据过滤机制的评估框架,旨在去噪现有基准,从而实现对视觉令牌压缩方法更公平、更准确的评估。所有数据与代码均可在https://github.com/Chenfei-Liao/VTC-Bench获取。
近年來,多模態大型語言模型(MLLMs)取得了快速進展。然而,現有的視覺任務方法往往依賴於間接表示,例如將檢測座標生成為文本,這限制了性能並阻礙了如分割等密集預測任務的實現。為克服這些挑戰,我們引入了「Patch-as-Decodable Token」(PaDT),這是一種統一範式,使MLLMs能夠直接生成文本和多樣化的視覺輸出。PaDT的核心是視覺參考標記(VRTs),這些標記源自查詢圖像的視覺補丁嵌入,並與LLM的輸出文本標記無縫交織。一個輕量級的解碼器隨後將LLM的輸出轉化為檢測、分割和定位預測。與先前方法不同,PaDT在每次前向傳播時獨立處理VRTs,並動態擴展嵌入表,從而提高了相似物體的定位和區分能力。我們進一步為PaDT定制了訓練策略,通過隨機選擇VRTs進行監督微調,並引入了一種魯棒的逐標記交叉熵損失。我們在四項視覺感知與理解任務上的實證研究表明,PaDT始終實現了最先進的性能,即使與顯著更大的MLLM模型相比也是如此。代碼可在https://github.com/Gorilla-Lab-SCUT/PaDT獲取。
尖端大型語言模型的開發通常被理解為包含預訓練和後訓練兩個階段的過程。我們指出,需要增加一個稱為強化中期訓練的中間階段,該階段具有顯著提升性能的潛力。在本文中,我們正式定義了這一問題,並識別出三個關鍵挑戰:(1) 由於過多的推理步驟導致訓練效率低下,(2) 忽視了不平衡的詞元熵分佈,(3) 未充分利用詞元信息。為應對這些挑戰,我們提出了RMT框架,這是一個高效、自適應且統一的強化中期訓練框架,包含多項創新組件。具體而言,我們首先引入了一種動態詞元預算機制,以限制不必要的推理步驟並緩解模型過度思考的問題。其次,我們設計了一種基於課程的自適應採樣方法,促進從易到難詞元的漸進學習軌跡。最後,我們提出了一種雙重訓練策略,將強化學習與下一個詞元預測相結合,確保對關鍵詞元的針對性學習並充分利用所有詞元信息。大量實驗證明了RMT相較於現有最先進方法的優越性,在語言建模中僅使用21%的推理長度即可實現高達+64.91%的性能提升。我們還展示了強化中期訓練後獲得的檢查點能夠有益於後續的後訓練,在數學領域實現了高達+18.76%的改進。
腕部视角观测对于VLA模型至关重要,因其捕捉了精细的手-物交互,直接提升了操控性能。然而,大规模数据集鲜少包含此类记录,导致丰富的锚点视角与稀缺的腕部视角之间存在显著差距。现有世界模型无法弥合这一差距,因为它们需要腕部视角的首帧图像,因而无法仅凭锚点视角生成腕部视角视频。在此背景下,诸如VGGT等视觉几何模型凭借其几何与跨视角先验知识崭露头角,为解决极端视角转换提供了可能。受此启发,我们提出了WristWorld,首个仅依赖锚点视角生成腕部视角视频的4D世界模型。WristWorld分两阶段运作:(i) 重建阶段,扩展VGGT并引入我们的空间投影一致性(SPC)损失,以估计几何一致的腕部视角姿态与4D点云;(ii) 生成阶段,采用我们的视频生成模型,从重建的视角合成时间连贯的腕部视角视频。在Droid、Calvin及Franka Panda上的实验展示了具有卓越空间一致性的最先进视频生成能力,同时提升了VLA性能,将Calvin上的平均任务完成长度提高了3.81%,并缩小了42.4%的锚点-腕部视角差距。
儘管語言模型(LMs)在自動化機器學習工程(MLE)方面取得了顯著進展,但高質量MLE訓練數據的獲取仍受到嚴重限制。現有的MLE基準測試因依賴於靜態、手動策劃的任務而存在可擴展性低和適用性有限的問題,這些任務的製作耗時且需要大量人工投入。我們引入了MLE-Smith,這是一個全自動的多代理管道,通過高效的生成-驗證-執行範式,將原始數據集轉化為競賽風格的MLE挑戰,以此來擴展MLE任務,並確保其質量可驗證、現實世界可用性強及多樣性豐富。MLE-Smith中的多代理管道推動了結構化任務設計和標準化重構,結合了混合驗證機制,該機制強制執行嚴格的結構規則和高層次的語義合理性。它還通過交互式執行來驗證經驗上的可解性和現實世界的保真度。我們將MLE-Smith應用於224個現實世界數據集,生成了涵蓋多個類別、目標和模態的606個任務,證明了MLE-Smith能夠在廣泛的現實世界數據集上有效工作。對生成任務的評估顯示,八種主流及前沿LLMs在MLE-Smith任務上的表現與其在精心設計的人類任務上的表現高度相關,這凸顯了MLE-Smith在擴展MLE任務的同時保持任務質量的有效性。
將線上強化學習(RL)整合至擴散與流動模型之中,近期已成為一種極具前景的方法,旨在使生成模型與人類偏好對齊。在去噪過程中,通過隨機微分方程(SDE)進行隨機採樣,以生成多樣化的去噪方向供RL探索。儘管現有方法能有效探索潛在的高價值樣本,但由於獎勵信號稀疏且狹窄,導致偏好對齊效果欠佳。為應對這些挑戰,我們提出了一種新穎的細粒度GRPO(G^2RPO)框架,該框架在流動模型的強化學習中實現了對採樣方向的精確且全面的獎勵評估。具體而言,引入了一種奇異隨機採樣策略,以支持逐步的隨機探索,同時強化獎勵與注入噪聲之間的高度相關性,從而為每次SDE擾動提供忠實的獎勵。同時,為消除固定粒度去噪中固有的偏差,我們引入了一個多粒度優勢集成模塊,該模塊聚合了在多個擴散尺度上計算的優勢,從而對採樣方向進行更全面且穩健的評估。在包括域內和域外評估在內的各種獎勵模型上進行的實驗表明,我們的G^2RPO顯著優於現有的基於流動的GRPO基線,凸顯了其有效性和穩健性。
均勻信息密度(Uniform Information Density, UID)假說認為,有效的溝通應維持穩定的信息流。在本研究中,我們將這一原則重新應用於大型語言模型(LLM)的推理軌跡中,探討步驟層面的均勻性是否反映了推理質量。為此,我們提出了一種基於熵的逐步信息密度度量方法,並引入了兩種互補的均勻性測量指標:局部均勻性分數和全局均勻性分數。在對六個不同推理基準的實驗中,我們發現步驟層面的均勻性不僅提供了強大的理論視角,還帶來了實際的性能提升;例如,在AIME2025基準上,選擇步驟層面信息密度更均勻的推理軌跡,相較於基線,準確率提升了10-32%。我們的分析進一步揭示,正確的推理軌跡往往避免信息密度的急劇波動,而錯誤的軌跡則表現出不規則的信息爆發。這些結果表明,受UID啟發的信息密度度量方法在預測推理質量方面優於其他內部信號。研究結果強調了信息密度的均勻性作為構建更可靠、更準確推理系統的穩健診斷和選擇標準的重要性。
在過去十年中,U-Net 已成為醫學影像分割領域的主導架構,催生了數千種 U 形變體的發展。儘管其應用廣泛,但至今仍缺乏一個全面的基準來系統評估這些模型的性能與實用性,這主要歸因於統計驗證不足以及對跨多樣數據集的效率與泛化能力考慮有限。為彌補這一空白,我們提出了 U-Bench,這是首個大規模、統計嚴謹的基準,評估了 100 種 U-Net 變體在 28 個數據集和 10 種成像模式下的表現。我們的貢獻體現在三個方面:(1) 全面評估:U-Bench 從統計穩健性、零樣本泛化能力和計算效率三個關鍵維度評估模型。我們引入了一種新穎的指標——U-Score,它綜合考量了性能與效率的權衡,為模型進展提供了面向部署的視角。(2) 系統分析與模型選擇指導:我們總結了大規模評估中的關鍵發現,並系統分析了數據集特徵與架構範式對模型性能的影響。基於這些洞察,我們提出了一個模型顧問代理,以指導研究人員為特定數據集和任務選擇最合適的模型。(3) 公開可用性:我們提供了所有代碼、模型、協議和權重,使社區能夠復現我們的結果並將基準擴展至未來的方法。總之,U-Bench 不僅揭示了以往評估中的不足,還為下一個十年基於 U-Net 的分割模型建立了公平、可重現且實踐相關的基準測試基礎。該項目可訪問於:https://fenghetan9.github.io/ubench。代碼可於以下網址獲取:https://github.com/FengheTan9/U-Bench。
通用事件边界检测(Generic Event Boundary Detection, GEBD)旨在通过人类感知的视角解析长视频。然而,当前的GEBD方法需要处理完整的视频帧以做出预测,这与人类在线实时处理数据的方式不同。为了弥合这一差距,我们引入了一项新任务——在线通用事件边界检测(Online Generic Event Boundary Detection, On-GEBD),旨在即时检测流媒体视频中的通用事件边界。该任务面临独特的挑战,即在无法访问未来帧的情况下,实时识别无分类的、微妙的事件变化。为了应对这些挑战,我们提出了一种新颖的On-GEBD框架——Estimator,其灵感来源于事件分割理论(Event Segmentation Theory, EST),该理论解释了人类如何通过利用预测信息与实际信息之间的差异将正在进行的活动分割为事件。我们的框架由两个关键组件组成:一致性事件预测器(Consistent Event Anticipator, CEA)和在线边界判别器(Online Boundary Discriminator, OBD)。具体而言,CEA仅基于先前的帧生成反映当前事件动态的未来帧预测。随后,OBD测量预测误差,并通过对过去误差的统计测试自适应调整阈值,以捕捉多样且微妙的事件转换。实验结果表明,Estimator在从近期在线视频理解模型改编的所有基线方法中表现优异,并在Kinetics-GEBD和TAPOS数据集上实现了与先前离线GEBD方法相当的性能。
我們介紹了Heptapod,這是一個遵循語言建模基礎原則的圖像自迴歸模型。Heptapod採用了因果注意力機制,摒棄了對CFG的依賴,並避開了語義分詞器的趨勢。我們的核心創新是下一維度分佈預測:一個專注於重建的視覺分詞器與因果Transformer結合,學習在每個時間步預測整個二維空間網格上的圖像分佈。這一學習目標將自迴歸框架的序列建模與掩碼自編碼的整體自監督學習相統一,使模型能夠通過生成式訓練捕捉全面的圖像語義。在ImageNet生成基準測試中,Heptapod取得了2.70的FID分數,顯著超越了以往的因果自迴歸方法。我們希望這項工作能激發對視覺信號及其他領域語言建模原則的重新思考。
基於大型語言模型(LLMs)或多模態LLMs(MLLMs)驅動的計算機使用代理(CUA)框架,正迅速成熟為能在軟件環境中直接感知上下文、推理並行動的助手。其最關鍵的應用之一便是操作系統(OS)控制。隨著CUA在OS領域日益融入日常操作,審視其現實世界中的安全影響變得至關重要,特別是CUA是否可能被濫用以實施真實且與安全相關的攻擊。現有研究存在四大侷限:缺乏針對戰術、技術和程序(TTP)的攻擊者知識模型,端到端殺傷鏈覆蓋不完整,缺乏多主機及加密用戶憑證的真實環境,以及依賴LLM作為判斷依據的不可靠性。為彌補這些不足,我們提出了AdvCUA,這是首個與MITRE ATT&CK企業矩陣中真實世界TTPs對齊的基準,包含140項任務,其中40項直接惡意任務,74項基於TTP的惡意任務,以及26項端到端殺傷鏈,通過硬編碼評估在多主機環境沙箱中系統性地評估CUA面臨的真實企業OS安全威脅。我們基於8個基礎LLM評估了現有的五種主流CUA,包括ReAct、AutoGPT、Gemini CLI、Cursor CLI和Cursor IDE。結果表明,當前前沿的CUA並未充分涵蓋以OS安全為核心的威脅。CUA的這些能力降低了對定制惡意軟件和深度領域專業知識的依賴,使得即使經驗不足的攻擊者也能發動複雜的企業入侵,這引發了社會對CUA責任與安全性的廣泛關注。
优化器的选择对大规模语言模型(LLMs)的训练效率和计算成本有着显著影响。近期,Muon优化器通过正交化参数更新,改善了优化几何条件,展示了令人瞩目的成果。尽管Muon被视为Adam的潜在继任者,但联合利用两者优势的可能性尚未得到系统探索。本研究填补了这一空白,提出了NorMuon(神经元级归一化Muon),一种将正交化与神经元级自适应学习率协同结合的优化器。我们的分析表明,虽然Muon有效降低了条件数,但由此产生的更新表现出高度不均的神经元范数,导致某些神经元主导优化过程。NorMuon通过为每个神经元维护二阶动量统计量,并在正交化后应用行级归一化,解决了这一不平衡问题,确保了参数的均衡利用,同时保留了Muon的优化条件优势。为了实现在大规模场景下的实际部署,我们在FSDP2框架下开发了一种高效的分布式实现,策略性地将正交化计算分布在多个设备上。跨多个模型规模的实验表明,NorMuon在1.1B预训练设置下,训练效率比Adam提高了21.74%,比Muon提升了11.31%,同时保持了与Muon相当的内存占用。我们的发现表明,正交化与自适应学习率是互补而非竞争的方法,为大规模深度学习中的优化器设计开辟了新途径。
文本到視頻(T2V)生成技術具有變革多個領域的潛力,如教育、市場營銷、娛樂以及為視覺或閱讀理解障礙人士提供的輔助技術,通過從自然語言提示中創建連貫的視覺內容。自其誕生以來,該領域已從對抗模型發展到基於擴散的模型,產生了更高保真度、時間一致性的輸出。然而,挑戰依然存在,如對齊、長程連貫性和計算效率。針對這一不斷演變的格局,我們對文本到視頻生成模型進行了全面調查,追溯了從早期GANs和VAEs到混合擴散-變換器(DiT)架構的發展,詳細說明了這些模型的工作原理、它們如何解決了前代模型的局限性,以及為何向新架構範式的轉變對於克服質量、連貫性和控制方面的挑戰是必要的。我們系統地介紹了這些文本到視頻模型訓練和評估所用的數據集,並為了支持可重現性和評估訓練此類模型的可訪問性,我們詳細說明了它們的訓練配置,包括硬件規格、GPU數量、批次大小、學習率、優化器、訓練輪次和其他關鍵超參數。此外,我們概述了常用於評估此類模型的評價指標,並展示了它們在標準基準測試中的表現,同時也討論了這些指標的局限性以及向更全面、感知對齊的評價策略的新興轉變。最後,基於我們的分析,我們概述了當前的開放挑戰,並提出了幾個有前景的未來方向,為未來研究者在推進T2V研究和應用方面探索和構建提供了視角。
我們推出AlphaApollo,這是一個自我進化的代理推理系統,旨在解決基礎模型(FM)推理中的兩個瓶頸:模型內在能力的限制和測試時迭代的不可靠性。AlphaApollo通過協調多個模型與專業工具,實現了深思熟慮且可驗證的推理。它結合了(i)計算工具(配備數值與符號庫的Python)和(ii)檢索工具(任務相關的外部信息)來執行精確計算並基於數據做出決策。該系統進一步支持通過共享狀態圖進行多輪、多模型的解決方案演化,該圖記錄了候選方案、可執行檢查以及用於迭代改進的反饋。在AIME 2024/2025的評估中,針對多個模型,AlphaApollo展現了穩定的性能提升:Qwen2.5-14B-Instruct的Average@32提升了5.15%,Pass@32提升了23.34%;Llama-3.3-70B-Instruct的Average@32提升了8.91%,Pass@32提升了26.67%。工具使用分析顯示,超過80%的工具調用成功執行,且持續超越非工具基線,從而提升了FM的能力上限。更多實證結果與實現細節將更新於https://github.com/tmlr-group/AlphaApollo。
常見的大型語言模型(LLM)評估依賴於示範例子來引導模型生成符合期望風格的回應。雖然使用的例子數量已被研究並標準化,但如何格式化這些例子的選擇卻較少被探討。在評估協議和實際使用中,用戶面臨著如何分隔上下文例子的選擇:使用逗號?換行?分號?井號?等等?令人驚訝的是,我們發現這個看似微小的選擇可以顯著改變模型回應的品質。在領先的模型家族(如Llama、Qwen、Gemma)中,MMLU的表現可能會因分隔符的選擇而波動達±23%。事實上,只需修改分隔例子的單一字符,就能操控模型排名,使任何模型位居榜首。我們發現LLM的脆弱性普遍存在於不同主題和模型家族中,且不會隨著模型規模的擴大而改善。通過探測注意力頭分數,我們發現表現良好的分隔符能將注意力引導至輸入中的關鍵詞彙。最後,我們探索了提升LLM對分隔符選擇的魯棒性的方法。我們發現,在提示中指定所選的分隔符能增強魯棒性,並提供了關於最佳分隔符選擇的實用建議。
代碼轉換(Code-switching, CSW),即在單一話語中交替使用不同語言和文字,即便在大規模語言模型(LLMs)迅速發展的背景下,仍是多語言自然語言處理(NLP)領域的一大基本挑戰。多數LLMs在處理混合語言輸入、有限的CSW數據集以及評估偏差方面仍存在困難,這阻礙了其在多語言社會中的應用部署。本綜述首次提供了對CSW感知型LLM研究的全面分析,回顧了涵蓋五個研究領域、十二項NLP任務、超過三十個數據集及八十多種語言的獨特參考研究。我們依據架構、訓練策略及評估方法對近期進展進行分類,概述了LLMs如何重塑CSW建模以及哪些挑戰依然存在。文章最後提出了一條路線圖,強調了建立包容性數據集、公平評估及基於語言學基礎的模型,以實現真正多語言智能的必要性。所有資源的精選集合持續更新於https://github.com/lingo-iitgn/awesome-code-mixing/。
隨著檢索增強生成(Retrieval-Augmented Generation, RAG)技術的日益普及,強大的檢索模型變得比以往任何時候都更加重要。在醫療領域,結合文本與圖像資訊的多模態檢索模型,對於問答、跨模態檢索及多模態摘要等多項下游任務提供了顯著優勢,因為醫療數據往往同時包含這兩種格式。然而,目前尚無標準基準來評估這些模型在醫療環境中的表現。為填補這一空白,我們推出了M3Retrieve,一個多模態醫療檢索基準。M3Retrieve涵蓋5大領域、16個醫療專業及4項不同任務,包含超過120萬份文本文件與16.4萬筆多模態查詢,所有資料均在授權許可下收集。我們在此基準上評估了領先的多模態檢索模型,以探討不同醫療專業特有的挑戰,並理解這些挑戰對檢索性能的影響。通過發布M3Retrieve,我們旨在促進系統性評估,激發模型創新,並加速研究,以構建更強大、更可靠的多模態檢索系統應用於醫療領域。數據集及基準代碼可於此GitHub頁面獲取:https://github.com/AkashGhosh/M3Retrieve。
大型語言模型(LLMs)在回答長篇問題時經常出現幻覺,產生看似合理但實際上錯誤的答案。一種常見的緩解策略是為LLM的輸出提供歸屬。然而,現有的基準測試主要集中於簡單的歸屬,即檢索支持性的文本證據作為參考。我們認為,在現實世界的場景中,如金融應用,歸屬超越了參考檢索。我們引入了FinLFQA,這是一個旨在評估LLMs生成複雜金融問題長篇答案並提供可靠且細緻歸屬能力的基準。FinLFQA通過人工註釋評估歸屬的三個關鍵方面:(1)從財務報告中提取的支持證據,(2)中間的數值推理步驟,以及(3)指導推理過程的特定領域金融知識。我們還提供了一個自動評估框架,涵蓋答案質量和歸屬質量。通過對八種LLMs在多種歸屬生成範式上的廣泛實驗,我們發現細粒度指標對於區分模型能力至關重要,端到端生成與事後處理方法相比具有相當的性能,而迭代改進僅在外部反饋指導下才有所幫助。
旅行規劃(TP)代理最近作為一個新興的構建模塊,用於與外部工具和資源互動以生成旅行行程,確保用戶體驗的愉悅。儘管其優勢顯著,現有研究依賴於手工製作的提示和固定的代理工作流程,限制了更靈活和自主的TP代理的發展。本文提出了DeepTravel,一個端到端的代理強化學習框架,用於構建自主的旅行規劃代理,能夠自主規劃、執行工具,並對工具響應進行反思,以在多步推理中探索、驗證和精煉中間行動。為實現這一目標,我們首先通過緩存交通、住宿和POI數據構建了一個穩健的沙盒環境,促進TP代理的訓練,而不受現實世界API限制(如不一致的輸出)的約束。此外,我們開發了一個分層獎勵建模系統,其中軌跡級驗證器首先檢查時空可行性並過濾不滿意的旅行行程,然後回合級驗證器進一步驗證行程細節與工具響應的一致性,實現高效且精確的獎勵服務。最後,我們提出了回放增強的強化學習方法,使TP代理能夠定期從失敗經驗緩衝區中回放,顯著提升代理能力。我們將訓練後的TP代理部署在滴滴企業解決方案應用上,並進行了全面的在線和離線評估,結果表明DeepTravel使小型LLM(如Qwen3 32B)在旅行規劃任務中顯著超越現有的前沿LLM,如OpenAI o1、o3和DeepSeek R1。
儘管現代視頻生成模型在視覺逼真度上令人印象深刻,但它們經常產生違反直觀物理定律的序列,例如物體漂浮、瞬移或以違反因果關係的方式變形。雖然人類可以輕易察覺這些不合理之處,但目前尚無可靠的方法來定量評估視頻中的物理真實性。在本研究中,我們探討了視頻語言模型(VLMs)是否能夠被訓練成物理合理性的可靠評判者。我們發現現有的VLMs在識別物理違規方面存在困難,這暴露了它們在時間和因果推理上的根本局限性。為解決這一問題,我們引入了TRAVL,這是一種結合了平衡訓練數據集和軌跡感知注意力模組的微調方法,以改進VLMs中的運動編碼和辨識能力。為了更嚴格地評估物理推理,我們提出了ImplausiBench,這是一個包含300個視頻(150個真實,150個生成)的基準測試,它消除了語言偏見並隔離了視覺-時間理解。性能評估既基於黃金標準的人類判斷,也採用了更嚴格的LLM作為評判者的指標。TRAVL和ImplausiBench共同提供了一個統一的框架,用於探索和改進多模態模型中的物理合理性,揭示了視覺-時間理解中一個具有挑戰性且尚未充分探索的方面。
本研究探討了基礎模型在複雜動態環境中的推理與規劃能力及其可擴展性。我們引入了PuzzlePlex,這是一個旨在通過多樣化謎題集來評估這些能力的基準。PuzzlePlex包含15種類型的謎題,涵蓋了不同難度的確定性與隨機性遊戲,以及單人與雙人場景。PuzzlePlex框架為每種遊戲提供了全面的環境,並支持可擴展性,以隨著基礎模型的發展生成更具挑戰性的實例。此外,我們實現了定制的遊戲策略以供比較。基於此基準,我們開發了細粒度的性能衡量指標,並在兩種設置下對前沿基礎模型進行了深入分析:基於指令的設置和基於代碼的設置。進一步地,我們系統地研究了它們的擴展極限。我們的研究結果表明,推理模型在基於指令的設置中表現優於其他模型,而基於代碼的執行雖然面臨更大挑戰,但提供了一種可擴展且高效的替代方案。PuzzlePlex實現了針對性評估,並為基礎模型在推理、規劃和泛化方面的未來改進提供了指導。
視覺自迴歸(AR)模型的出現,不僅革新了圖像生成領域,也為合成圖像檢測帶來了新的挑戰。與以往基於生成對抗網絡(GAN)或擴散模型的方法不同,AR模型通過離散令牌預測來生成圖像,在圖像合成質量上展現出顯著提升,並在其向量量化表示中呈現出獨特特性。本文提出利用離散分佈差異感知量化誤差(D^3QE)進行自迴歸生成圖像的檢測,該方法挖掘了真實與偽造圖像中存在的代碼本獨特模式及頻率分佈偏差。我們引入了一種離散分佈差異感知變壓器,將動態代碼本頻率統計整合至其注意力機制中,融合語義特徵與量化誤差潛在信息。為評估本方法,我們構建了一個名為ARForensics的綜合數據集,涵蓋了7種主流視覺AR模型。實驗結果表明,D^3QE在不同AR模型中均展現出優異的檢測準確率與強大的泛化能力,並對現實世界中的干擾具有魯棒性。相關代碼已公開於https://github.com/Zhangyr2022/D3QE。
時間序列插補(Time Series Imputation, TSI)旨在恢復時間數據中的缺失值,由於現實場景中缺失情況複雜且缺失率往往較高,這仍然是一個基礎性挑戰。現有模型通常優化逐點重建損失,專注於恢復數值(局部信息)。然而,我們觀察到在高缺失率下,這些模型在訓練階段表現良好,但在推理階段卻產生較差的插補結果和扭曲的潛在表示分佈(全局信息)。這揭示了一個關鍵的優化困境:當前目標缺乏全局指導,導致模型過度擬合局部噪聲,無法捕捉數據的全局信息。為解決這一問題,我們提出了一種新的訓練範式——全局局部信息瓶頸(Glocal Information Bottleneck, Glocal-IB)。Glocal-IB與模型無關,並通過引入全局對齊損失來擴展標準的IB框架,該損失源自於可處理的互信息近似。此損失將掩碼輸入的潛在表示與其原始觀測對應的潛在表示對齊,幫助模型在抑制缺失值引起的噪聲的同時,保留全局結構和局部細節,從而在高缺失率下實現更好的泛化能力。在九個數據集上的廣泛實驗證實,Glocal-IB在缺失情況下能持續提升性能並對齊潛在表示。我們的代碼實現可在https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB獲取。