每日精選AI研究論文及翻譯
大型語言模型利用互聯網規模的文本數據,然而具身AI仍受限於物理軌跡收集的高昂成本。桌面環境——尤其是遊戲——提供了一個引人注目的替代方案:它們在保持結構化觀察-動作耦合(這對具身學習至關重要)的同時,提供了大規模的豐富感知運動交互。我們提出了D2E(桌面到具身AI)框架,展示了桌面交互可以作為機器人具身AI任務的有效預訓練基礎。與之前局限於特定領域(如Minecraft的VPT)或數據保持專有(如SIMA)的工作不同,D2E建立了一個從可擴展的桌面數據收集到具身領域驗證轉移的完整流程。我們的框架包含三個組件:(1) OWA工具包,將多樣化的桌面交互統一為標準化格式,並實現152倍的壓縮;(2) Generalist-IDM,通過基於時間戳的事件預測實現對未見過遊戲的強大零樣本泛化,支持互聯網規模的偽標註;(3) VAPT,將桌面預訓練的表徵轉移到物理操作和導航任務中。利用超過1300小時的數據(259小時的人類示範和1000+小時的偽標註遊戲玩法),我們在LIBERO操作任務上達到了96.6%的成功率,在CANVAS導航基準上達到了83.3%。這驗證了數字交互中的感知運動原語具有足夠的不變性,能夠有意義地轉移到物理具身任務中,確立了桌面預訓練作為機器人學的實用範式。我們將公開所有工作,包括OWA工具包、人類收集和偽標註的數據集,以及VAPT訓練的模型,詳見https://worv-ai.github.io/d2e/。
以相机为中心的理解与生成是空间智能的两大基石,然而它们通常被孤立研究。我们提出了Puffin,一个统一的多模态相机中心模型,它沿相机维度扩展了空间感知能力。Puffin集成了语言回归与基于扩散的生成技术,能够从任意视角解读并创造场景。为了弥合相机与视觉-语言之间的模态鸿沟,我们引入了一种新颖的范式,将相机视作语言,实现“用相机思考”。这一方法引导模型在几何上下文中推理时,将空间定位的视觉线索与摄影术语对齐。Puffin在Puffin-4M上进行了训练,这是一个包含400万视觉-语言-相机三元组的大规模数据集。我们同时整合了全局相机参数与像素级相机映射,实现了灵活且可靠的空间生成。实验表明,Puffin在相机中心生成与理解任务上超越了专门模型。通过指令微调,Puffin能够泛化至多样化的跨视角任务,如空间想象、世界探索及摄影指导。我们将公开代码、模型、数据集构建流程及基准测试,以推动多模态空间智能研究的进展。
本研究首次大規模探討了為非英語語言(特別是韓語)構建完全開放的雙語大型語言模型(LLM),該模型主要基於合成數據進行訓練。我們推出了KORMo-10B,這是一個擁有108億參數的模型,從零開始在一個韓英雙語語料庫上訓練,其中68.74%的韓語部分為合成數據。通過系統性實驗,我們證明瞭當合成數據經過精心策劃,具備平衡的語言覆蓋和多樣的指令風格時,在大規模預訓練過程中不會導致不穩定或性能下降。此外,該模型在廣泛的推理、知識和指令遵循基準測試中,表現與當代開源多語言基線模型相當。我們的實驗揭示了兩個關鍵發現:(1)合成數據能夠可靠地支持長期預訓練而不會導致模型崩潰,(2)雙語指令微調能夠實現接近母語水平的韓語推理和話語連貫性。通過完全公開包括數據、代碼、訓練配方和日誌在內的所有組件,本研究為在低資源環境下開發基於合成數據的完全開放模型(FOMs)建立了一個透明的框架,並為未來多語言LLM研究樹立了可重複的先例。
隨著同行評審研究數量的激增,學者們日益依賴社交平台進行學術發現,而作者們則投入大量精力推廣其研究成果,以確保其可見性和引用率。為簡化這一過程並減少對人力的依賴,我們引入了自動推廣(AutoPR)這一新任務,它將研究論文轉化為精確、引人入勝且及時的公開內容。為實現嚴格的評估,我們發布了PRBench,這是一個多模態基準測試,將512篇同行評審文章與高質量的推廣帖子相連接,從三個維度評估系統:忠實度(準確性和語氣)、參與度(受眾定位和吸引力)以及一致性(時機和渠道優化)。我們還介紹了PRAgent,這是一個多代理框架,分三個階段自動化AutoPR:通過多模態準備進行內容提取,協作合成以產出精煉的成果,以及針對特定平台的適應性調整,以優化規範、語氣和標籤,實現最大覆蓋。與PRBench上的直接LLM管道相比,PRAgent展現了顯著的改進,包括總觀看時間增加了604%,點贊數上升了438%,整體參與度至少提升了2.9倍。消融研究表明,平台建模和定向推廣對這些增益貢獻最大。我們的成果將AutoPR定位為一個可處理、可測量的研究問題,並為可擴展、有影響力的自動化學術交流提供了路線圖。
視覺語言模型(VLMs)有望驅動實時助手和自主代理,但面臨一個關鍵挑戰:在處理近乎無限的視頻流時,如何在不增加延遲和內存使用的情況下實現理解。對整個視頻進行全注意力處理會導致計算成本呈二次方增長,且在長視頻上表現不佳。同時,簡單的滑動窗口方法也存在缺陷,它們要么破壞連貫性,要么因冗餘重計算而導致高延遲。本文介紹了StreamingVLM,這是一個專為實時、穩定理解無限視覺輸入而設計的模型。我們的方法是一個統一的框架,將訓練與流式推理對齊。在推理過程中,我們通過重用注意力匯聚點(attention sinks)的狀態、近期視覺標記的短窗口以及近期文本標記的長窗口,來維護一個緊湊的鍵值緩存(KV cache)。這種流式能力通過一種簡單的監督微調(SFT)策略來培養,該策略在短且重疊的視頻片段上應用全注意力,有效模擬了推理時的注意力模式,而無需在過長的上下文上進行訓練。為評估模型,我們構建了Inf-Streams-Eval,這是一個平均視頻時長超過兩小時的新基準,要求幀與文本之間進行密集的每秒對齊。在Inf-Streams-Eval上,StreamingVLM以66.18%的勝率擊敗了GPT-4O mini,並在單個NVIDIA H100上保持穩定的實時性能,最高可達8 FPS。值得注意的是,我們的SFT策略還增強了通用視覺問答(VQA)能力,無需任何VQA專用微調,在LongVideoBench上提升了+4.30,在OVOBench Realtime上提升了+5.96。代碼已開源於https://github.com/mit-han-lab/streaming-vlm。
近期,擴散模型在圖像生成領域取得了頂尖的性能,但常常面臨語義不一致或幻覺問題。儘管各種推理時引導方法能夠提升生成效果,但它們通常依賴外部信號或架構修改間接運作,這引入了額外的計算開銷。本文提出切向放大引導(Tangential Amplifying Guidance, TAG),這是一種更高效且直接的引導方法,僅基於軌跡信號運作,無需修改底層擴散模型。TAG利用中間樣本作為投影基,並放大估計分數相對於該基的切向分量,以校正採樣軌跡。我們通過一階泰勒展開形式化這一引導過程,證明放大切向分量能將狀態引導至更高概率區域,從而減少不一致性並提升樣本質量。TAG是一個即插即用、與架構無關的模塊,以最小的計算代價提升擴散採樣保真度,為擴散引導提供了新的視角。
大型语言模型(LLMs)已展现出显著的成功,其多模态扩展(MLLMs)进一步解锁了跨越图像、视频及其他非文本模态的能力。然而,尽管这一转变发生,旨在减轻手动提示设计负担并最大化性能的提示优化方法仍局限于文本领域,最终限制了MLLMs的全部潜力。受此差距启发,我们引入了多模态提示优化这一新问题,将先前提示优化的定义扩展至由文本与非文本提示对定义的多模态空间。为解决此问题,我们随后提出了多模态提示优化器(MPO),一个统一框架,不仅通过保持对齐的更新执行多模态提示的联合优化,还利用早期评估作为先验,在基于贝叶斯的选择策略中指导候选提示的选择过程。通过跨越多样化模态(如图像、视频乃至分子)的广泛实验,我们证明了MPO优于领先的仅文本优化方法,确立了多模态提示优化作为实现MLLMs潜力的关键步骤。
具身能力是指智能體感知、理解並與物理世界互動的一系列基本能力。儘管多模態大語言模型(MLLMs)作為具身智能體展現出潛力,但對其具身能力的全面系統評估仍顯不足,現有基準主要集中於特定領域,如規劃或空間理解。為彌補這一差距,我們引入了BEAR,這是一個全面且細緻的基準,用於評估MLLMs在原子級具身能力上的表現。BEAR涵蓋了14個領域、6大類別的4,469個交織圖像-視頻-文本條目,任務範圍從低層次的指向、軌跡理解、空間推理,到高層次的規劃。對20個代表性MLLMs的廣泛評估結果揭示了它們在所有具身能力領域中的持續侷限性。為應對這一不足,我們提出了BEAR-Agent,這是一個多模態可對話智能體,它整合了預訓練的視覺模型,以增強MLLM的感知、三維理解和規劃能力。這顯著提升了MLLM在BEAR上多樣化具身能力的表現,實現了9.12%的絕對增益,並在GPT-5上取得了17.5%的相對提升。此外,我們的實驗表明,提升MLLM的具身能力能夠有益於模擬環境中的具身任務。項目網站:https://bear-official66.github.io/
大型語言模型(LLMs)通過對海量文本語料進行模仿學習取得了顯著成功,但這種範式造成了訓練與生成之間的差距,並限制了模型的穩健推理能力。強化學習(RL)提供了一種更為數據高效的解決方案,能夠彌合這一差距,然而其應用一直受到一個關鍵數據瓶頸的制約:現有的RL數據集在規模和多樣性上均遠不及網絡規模的預訓練語料。為解決這一問題,我們引入了Webscale-RL管道,這是一個可擴展的數據引擎,能夠系統地將大規模預訓練文檔轉化為數百萬個多樣且可驗證的問答對,用於RL訓練。利用這一管道,我們構建了Webscale-RL數據集,包含超過9個領域的120萬個示例。實驗表明,基於該數據集訓練的模型在一系列基準測試中顯著優於持續預訓練和強數據精煉基線。值得注意的是,使用我們的數據集進行RL訓練顯著提高了效率,在僅需最多100倍少於持續預訓練的token數量的情況下,達到了與之相當的性能。我們的工作為將RL擴展至預訓練規模提供了一條可行路徑,從而實現更強大、更高效的語言模型。
眾包模型評估平台,如Chatbot Arena,能夠從人類視角進行即時評估,以判斷模型回應的品質。在編碼領域,手動檢驗大型語言模型(LLM)生成內容的品質極為困難,因為這需要理解大段原始代碼並模擬代碼執行過程。為此,我們推出了BigCodeArena,這是一個開放的人類評估平台,專注於代碼生成,並配備了全面且即時的執行環境。基於Chatbot Arena構建的BigCodeArena,能夠執行LLM生成的代碼,並允許人類與執行過程及結果互動。我們收集了超過14,000個以代碼為中心的原始對話會話,涵蓋10種廣泛使用的LLM、10種編程語言及8種執行環境類型。在這些對話中,我們識別出超過4,700個帶有配對人類偏好的多輪樣本。進一步分析揭示了LLM在由任務、語言和框架定義的細分領域中尚未被充分探索的偏好。為了系統性地檢驗前沿LLM的代碼理解與生成能力,我們基於收集的數據策劃了兩個基準測試,分別是BigCodeReward和AutoCodeArena。對於BigCodeReward,我們對4,700個對話進行了後處理,並評估了獎勵模型與人類偏好之間的一致性。評估結果顯示,當執行結果可得時,多數LLM在判斷編碼偏好方面表現優異。受此啟發,我們提出了AutoCodeArena,這是一個自動化的Elo評分基準,旨在無需人類參與的情況下評估LLM的代碼生成質量。我們發現,在近期湧現的模型中,如GPT-5、Claude-Sonnet-4和Claude-Opus-4等專有LLM,在代碼生成性能上仍處於領先地位。
近期,在推理模型(如OpenAI o1、DeepSeek-R1)的测试时间缩放趋势中,通过长链思维(Chain-of-Thought, CoT)取得了显著进展。然而,现有的基准测试主要集中于即时、单一视野的任务,未能充分评估模型理解和应对复杂、长期视野场景的能力。针对大型推理模型(Large Reasoning Models, LRMs)评估的这一不足,我们提出了R-HORIZON方法,旨在通过查询组合激发LRMs的长期视野推理行为。基于R-HORIZON,我们构建了一个长期视野推理基准,包含跨越长推理视野的复杂多步推理任务及相互依赖的问题。通过使用R-HORIZON基准对LRMs进行全面评估,我们发现即使是最先进的LRMs也表现出显著的性能下降。分析显示,LRMs的有效推理长度有限,且难以在多个问题间合理分配思考预算。认识到这些局限后,我们利用R-HORIZON构建了带有验证奖励的强化学习(Reinforcement Learning with Verified Rewards, RLVR)所需的长期视野推理数据。与使用单一视野数据训练相比,结合R-HORIZON的RLVR不仅大幅提升了多视野推理任务的性能,还促进了标准推理任务的准确性,在AIME2024上提高了7.5分。这些成果确立了R-HORIZON作为一种可扩展、可控且低成本的范式,用于增强和评估LRMs的长期视野推理能力。
推理型大型語言模型通過擴展的思維鏈生成展現出複雜的推理行為,這在解碼階段造成了前所未有的鍵值(KV)緩存開銷。現有的KV緩存壓縮方法在推理模型上表現欠佳:令牌丟棄方法因捨棄關鍵信息而破壞了推理完整性,而頭部重分配方法則錯誤地壓縮了對推理至關重要的頭部,因為它們是為檢索任務設計的,導致隨著壓縮率的提高,性能顯著下降。我們假設,在推理模型中,KV頭部表現出功能異質性——一些頭部對思維鏈一致性至關重要,而另一些則可壓縮。為驗證並利用這一洞見,我們提出了RLKV,一種新穎的推理關鍵頭部識別框架,它使用強化學習直接優化每個頭部的緩存使用與推理質量之間的關係。由於RLKV在訓練過程中從實際生成的樣本中產生獎勵,它自然識別出與推理行為相關的頭部。隨後,我們為這些頭部分配完整的KV緩存,而對其他頭部應用壓縮的常量KV緩存,以實現高效推理。我們的實驗表明,僅有少數注意力頭部對推理至關重要,這使得我們的KV壓縮方法在實現20-50%緩存減少的同時,相比未壓縮結果,性能幾乎無損,超越了基線方法。
隨著空間推理探索的當前熱潮,研究人員在理解室內場景方面取得了顯著進展,但在機器人和自動駕駛等多樣化應用中仍面臨挑戰。本文旨在通過解決兩個關鍵問題來推進跨多樣場景的全尺度空間推理:1)對室內3D掃描和耗時的手動註釋進行數據集構建的嚴重依賴;2)缺乏有效的全尺度場景建模,這往往導致對單個場景的過度擬合。本文提出了一種整合結構化空間推理知識系統、尺度感知建模和漸進式訓練範式的整體解決方案,作為首次嘗試,據我們所知,擴展了多模態大語言模型(MLLMs)的全尺度空間智能。利用任務特定、專家驅動的自動化流程,我們構建了跨越5個空間尺度的超過38K個視頻場景,創建了SpaceVista-1M數據集,該數據集包含約100萬個空間問答對,涵蓋19種多樣任務類型。雖然專家模型可以注入有用的領域知識,但它們在評估方面並不可靠。因此,我們通過手動記錄、檢索和組裝基於視頻的數據,構建了一個具有精確註釋的全尺度基準。然而,由於潛在的知識衝突,使用SpaceVista-1M進行簡單訓練往往效果不佳。為此,我們引入了SpaceVista-7B,這是一個接受超越語義的密集輸入並以尺度為錨點進行尺度感知專家和漸進獎勵的空間推理模型。最後,在包括我們的SpaceVista-Bench在內的5個基準上的廣泛評估展示了競爭性能,顯示出在所有尺度和場景中的強大泛化能力。我們的數據集、模型和基準將發佈在https://peiwensun2000.github.io/mm2km。
評估現代機器學習模型的成本已變得極其高昂。像LMMs-Eval和HELM這樣的基準測試,每個模型都需要消耗數千個GPU小時。昂貴的評估過程降低了包容性,拖慢了創新週期,並加劇了環境影響。傳統方法通常遵循兩個步驟:首先,選擇一個數據錨點子集;其次,訓練一個從該子集上的準確率到最終測試結果的映射。這種方法的缺點在於,錨點選擇依賴於聚類,這可能既複雜又對設計選擇敏感。我們認為,促進樣本多樣性並非關鍵;重要的是選擇那些能最大化模型響應多樣性的樣本。我們的方法,多樣化樣本濃縮(DISCO),選擇了模型間分歧最大的前k個樣本。這使用了貪婪的、基於樣本的統計方法,而非全局聚類。該方法在概念上更為簡潔。從理論角度來看,模型間的分歧為這種貪婪選擇提供了信息理論上的最優規則。DISCO在性能預測方面展現了相較於先前方法的實證優勢,在MMLU、Hellaswag、Winogrande和ARC等基準測試中取得了最先進的成果。代碼可在此處獲取: https://github.com/arubique/disco-public。
基於可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型(LLMs)在推理任務上表現的標準方法,其中群組相對策略優化(GRPO)在實踐中廣泛應用。然而,GRPO在負面群組上浪費了大量計算資源:在這些群組中,所有採樣的回應都不正確,導致優勢值為零,從而無法產生梯度。我們探討是否能在無需額外監督的情況下利用這些負面群組。從獎勵建模中的最大似然(MLE)目標出發,我們證明MLE梯度等於針對修改後價值函數的策略梯度。該價值函數對錯誤回應增加了基於置信度的懲罰,對更自信的錯誤施加更大的懲罰。我們將此方法稱為基於負樣本的似然估計(LENS)。LENS改進了GRPO,為錯誤生成分配非零且依賴於置信度的獎勵,使負面群組變得有信息量,並將之前浪費的樣本轉化為有用的梯度更新。在MATH基準測試中,使用Llama-3.1-8B和Qwen-2.5-3B模型,所提出的變體始終優於GRPO基線,特別是在更難的項目上取得了顯著提升。這些結果展示了一種原則性且實用的方法來“挽救”負面群組,從而提高了RLVR的效率和性能。
近期,多模态大型推理模型(MLRMs)的进展显著提升了其解决复杂文本和视觉任务的能力。然而,这些模型在处理简单问题时往往过度思考,产生不必要的冗长推理轨迹,而在面对挑战性问题时则探索不足,导致错失解决方案。为应对这种不平衡,我们提出了ARES,一个统一的开源自适应推理框架,能够根据任务难度动态分配探索力度。我们的方法基于两个关键实证发现:(i) 虽然单令牌熵存在噪声,但高窗口熵(HWE)令牌(在滑动窗口下平均的令牌级熵)能可靠捕捉推理关键时刻;(ii) 减少HWE使用有利于解决简单问题,而增加HWE对于解决难题至关重要。基于这些洞见,ARES引入了一个两阶段训练流程。在自适应冷启动阶段,我们精选了多模态和文本数据,并配以与问题难度成比例的推理轨迹,使模型具备初步的难度感知能力。在第二阶段,我们开发了自适应熵策略优化(AEPO),它利用HWE令牌作为探索触发器来决定何时探索,并通过动态KL控制的分层熵奖励来决定探索的深度。大量实验表明,ARES在多种数学、逻辑和多模态基准测试中实现了卓越的性能和推理效率,同时在显著降低推理成本的情况下,缩小了与领先商业系统的差距。
運用、理解及創造工具的能力,是人類智慧的顯著特徵,使我們能夠與物理世界進行複雜的互動。任何通用智能體若要實現真正的多功能性,也必須掌握這些基本技能。儘管現代多模態大型語言模型(MLLMs)利用其廣泛的常識知識,在具身人工智慧及下游視覺-語言-動作(VLA)模型中進行高層次規劃,但其對物理工具的真正理解程度仍未被量化。為彌補這一差距,我們提出了PhysToolBench,這是首個專注於評估MLLMs對物理工具理解能力的基準。我們的基準以視覺問答(VQA)數據集的形式構建,包含超過1,000個圖像-文本對。它評估了三個不同難度層次的能力:(1) 工具識別:要求識別工具的主要功能。(2) 工具理解:測試理解工具運作原理的能力。(3) 工具創造:挑戰模型在常規工具不可用時,利用周圍物品創造新工具的能力。我們對32個MLLMs進行了全面評估,涵蓋專有、開源、專用具身及VLA骨幹模型,結果顯示在工具理解方面存在顯著不足。此外,我們提供了深入分析並提出了初步解決方案。代碼和數據集已公開提供。
近年來,人工智慧的發展已從模式識別任務推進至需要逐步、系統二(System2)式推理的問題,尤其是在大型語言模型領域。然而,與學習不同,在學習中,泛化與分佈外(OoD)評估的概念已得到良好形式化,但對於推理能力尚無明確、一致的定義或衡量標準。我們提出「複雜度分佈外泛化」(Complexity OoD)作為定義和衡量推理能力的框架與問題設定。當模型在測試樣本上保持性能,且這些樣本所需的最小解決複雜度(無論是表徵上的更豐富解決結構,還是計算上的更多推理步驟/程序長度)超過所有訓練樣本時,該模型即展現了複雜度分佈外泛化。我們通過解決方案的柯氏複雜度及操作代理(如對象/關係計數;推理步驟計數)來形式化複雜度,闡明複雜度分佈外與長度及組合分佈外的區別。這一視角統一了學習與推理:許多在低複雜度下可通過系統一(System1)式處理解決的案例,在複雜度壓力下轉變為系統二式處理,而系統二可視為對解決結構的泛化。我們將這一觀點轉化為實踐建議,涵蓋整個技術棧的複雜度分佈外操作化:將複雜度納入基準與評估指標設計,重新思考監督以針對解決軌跡,尋求並設計針對複雜度分佈外泛化的歸納偏置,應對學習推理的溢出效應,如虛假捷徑、語義魯棒性、災難性遺忘及逐步校準。由於僅靠數據擴展無法解決複雜度分佈外問題,實現穩健推理的進展將需要明確建模並根據複雜度分配計算的架構與訓練機制。
近年來,三維佔據預測任務取得了顯著進展,在基於視覺的自動駕駛系統中扮演著至關重要的角色。傳統方法受限於固定的語義類別,而近期研究則轉向預測與文本對齊的特徵,以實現現實場景中的開放詞彙文本查詢。然而,在文本對齊的場景建模中存在一個權衡:稀疏的高斯表示難以捕捉場景中的小物體,而密集表示則帶來顯著的計算開銷。為解決這些限制,我們提出了PG-Occ,一種創新的漸進高斯變換器框架,能夠實現開放詞彙的三維佔據預測。該框架採用漸進式在線密集化策略,這是一種前饋策略,逐步增強三維高斯表示以捕捉細粒度的場景細節。通過迭代增強表示,框架實現了越來越精確和詳細的場景理解。另一項關鍵貢獻是引入了具有時空融合的各向異性感知採樣策略,該策略自適應地為不同尺度和階段的高斯分配感受野,從而實現更有效的特徵聚合和更豐富的場景信息捕捉。通過廣泛的評估,我們證明PG-Occ達到了最先進的性能,相較於之前表現最佳的方法,mIoU相對提升了14.3%。代碼和預訓練模型將在項目頁面發佈時公開:https://yanchi-3dv.github.io/PG-Occ
大型語言模型(LLMs)在推理能力上展現了顯著進步,這通常得益於監督式微調(SFT)。然而,SFT資源消耗巨大,依賴於大量精心策劃的數據集、拒絕採樣的示範以及對所有令牌的統一優化,儘管其中僅有少部分承載著有意義的學習價值。在本研究中,我們探討了一個反直覺的想法:較小的語言模型(SLMs)能否通過揭示反映後者獨特優勢的高價值推理時刻來教導更大的語言模型(LLMs)?我們提出了LightReasoner,這是一個新穎的框架,它利用更強的專家模型(LLM)與較弱的業餘模型(SLM)之間的行為差異。LightReasoner分兩個階段運作:(1)採樣階段,精確定位關鍵推理時刻,並通過專家與業餘者的對比構建捕捉專家優勢的監督示例;(2)微調階段,使專家模型與這些精煉示例對齊,從而放大其推理優勢。在七個數學基準測試中,LightReasoner將準確率提升了最高達28.1%,同時減少了90%的時間消耗、80%的採樣問題以及99%的微調令牌使用,且無需依賴真實標籤。通過將較弱的SLMs轉化為有效的教學信號,LightReasoner為提升LLM推理能力提供了一種可擴展且資源高效的方法。代碼可於以下網址獲取:https://github.com/HKUDS/LightReasoner
当前可控扩散模型通常依赖于固定架构,通过修改中间激活来注入基于新模态的指导。这种方法在动态、多阶段的去噪过程中采用静态条件策略,限制了模型在生成从粗结构到细细节演变时调整其响应的能力。我们引入了TC-LoRA(时间调制条件LoRA),这是一种新范式,通过直接条件化模型权重实现动态、上下文感知的控制。我们的框架利用超网络即时生成LoRA适配器,根据时间和用户条件为冻结的主干网络在每一步扩散过程中定制权重修改。这一机制使模型能够学习并执行一种明确的、自适应的策略,在整个生成过程中应用条件指导。通过在多种数据领域的实验,我们证明与静态的、基于激活的方法相比,这种动态的、参数化的控制显著提高了生成保真度和对空间条件的遵循度。TC-LoRA确立了一种替代方法,其中模型的条件策略通过其权重的更深层次功能适应来修改,使得控制能够与任务和生成阶段的动态需求保持一致。
我們推出MRMR,這是首個需要深度推理的專家級多學科多模態檢索基準。MRMR包含1,502個查詢,涵蓋23個領域,所有正向文檔均經過人類專家仔細驗證。與先前基準相比,MRMR引入了三大關鍵進展。首先,它挑戰檢索系統在多個專業領域的能力,實現跨領域的細粒度模型比較。其次,查詢具有深度推理特性,例如需要深入解讀顯微鏡切片圖像等。我們進一步引入矛盾檢索這一新任務,要求模型識別相互衝突的概念。最後,查詢和文檔均構建為圖文交錯的序列。與早期僅限於單一圖像或單模態文檔的基準不同,MRMR提供了更真實的場景,包含多圖像查詢和混合模態的文檔庫。我們對4類多模態檢索系統和14個前沿模型在MRMR上進行了廣泛評估。基於LLM生成圖像描述的文本嵌入模型Qwen3-Embedding表現最佳,凸顯了多模態檢索模型的巨大改進空間。儘管最新的多模態模型如Ops-MM-Embedding在專家領域查詢上表現出色,但在需要深度推理的任務上仍有不足。我們相信MRMR為在多模態檢索領域開拓更現實且具挑戰性的場景鋪平了道路。
推理模型在數學和編程等領域近期展現了顯著的進展。然而,它們在數學和編程方面的專家級能力,與其在長期互動任務(如網絡導航和電腦/手機使用)中的表現形成了鮮明對比。受人類認知文獻的啟發,我們認為當前的人工智慧代理需要「替代性試錯」能力——即在行動前能夠在心理上模擬不同未來情景的能力——以提升其在複雜互動環境中的理解與表現。我們提出了Dyna-Mind,這是一個兩階段的訓練框架,旨在明確教導(視覺)語言模型代理將此類模擬整合到其推理過程中。在第一階段,我們引入了「基於模擬的推理」(ReSim),該方法訓練代理從通過環境互動收集的真實經驗構建的擴展搜索樹中生成結構化的推理軌跡。ReSim因此將代理的推理基於真實的世界動態,並賦予其在推理中預測未來狀態的能力。在第二階段,我們提出了Dyna-GRPO,這是一種在線強化學習方法,通過使用來自實際推演的結果獎勵和中間狀態作為反饋,進一步增強代理的模擬與決策能力。在兩個合成基準(Sokoban和ALFWorld)和一個現實基準(AndroidWorld)上的實驗表明:(1)ReSim有效地將模擬能力注入人工智慧代理;(2)Dyna-GRPO利用結果和互動層面的信號,學習到更優的長期規劃密集型任務策略。這些結果共同凸顯了模擬在使人工智慧代理在日益挑戰的環境中更有效地推理、規劃和行動中的核心作用。
动态视图合成技术已取得显著进展,然而,由于优化过程缓慢及参数估计复杂,从未经校准的随意视频中重建场景仍具挑战性。本研究提出Instant4D,一种单目重建系统,它利用原生4D表示法,能在数分钟内高效处理随意视频序列,无需校准相机或深度传感器。我们的方法始于通过深度视觉SLAM进行几何恢复,随后通过网格剪枝优化场景表示。此设计在保持几何完整性的同时,显著减少了冗余,将模型大小缩减至原尺寸的10%以下。为高效处理时间动态性,我们引入了一种简化的4D高斯表示法,实现了30倍的加速,并将训练时间控制在两分钟以内,同时在多个基准测试中保持了竞争力。我们的方法在Dycheck数据集上或针对典型的200帧视频,能在10分钟内完成单视频重建。我们进一步将该模型应用于野外视频,展示了其广泛适用性。项目网站发布于https://instant4d.github.io/。
大型语言模型(LLMs)在数学与逻辑推理方面展现了显著的进步,然而,作为一门独特且综合的学科,统计学在基准测试中的探索仍显不足。为填补这一空白,我们推出了StatEval,这是首个专为统计学设计的全面基准测试,覆盖了从基础到高级的广泛难度层次。StatEval包含13,817道涵盖本科及研究生课程的基础题目,以及从顶尖期刊中提取的2,374项研究级证明任务。为构建此基准,我们设计了一个可扩展的多代理流程,结合人类参与验证,自动化实现大规模题目提取、重写及质量控制,同时确保学术严谨性。此外,我们提出了一套针对计算与证明任务量身定制的稳健评估框架,支持对推理能力进行细致评估。实验结果显示,尽管闭源模型如GPT5-mini在研究级问题上得分低于57%,开源模型的表现则更为逊色。这些发现凸显了统计推理的独特挑战及当前LLMs的局限性。我们期待StatEval能成为推动大型语言模型统计智能发展的严格基准。所有数据与代码均可在我们的网络平台上获取:https://stateval.github.io/。
在领域转移下实现鲁棒的自动语音识别(ASR)至关重要,因为现实世界中的系统会遭遇未见过的口音和领域,且标注数据有限。尽管伪标签提供了一种实用的解决方案,但它常常引入系统性的、特定于口音的误差,而这些误差通过过滤无法修正。我们提出疑问:在没有目标领域真实标签的情况下,如何纠正这些反复出现的偏差?我们提出了一种简单的参数空间校正方法:在一个包含真实标签和伪标签数据的源域中,两个ASR模型从相同的初始化状态进行微调,一个使用真实标签,另一个使用伪标签,它们的权重差异形成一个校正向量,该向量捕捉了伪标签的偏差。当将此向量应用于伪标签的目标模型时,它提升了识别效果,在AfriSpeech-200数据集上,使用Whisper tiny模型对十种非洲口音进行测试,实现了高达35%的相对词错误率(WER)降低。
传统多模态学习者在处理如视觉问答等任务时,寻求统一的表征方式,但严重依赖于成对的数据集。然而,一个被忽视却可能极具潜力的问题是:能否利用辅助的非配对多模态数据,直接增强目标模态中的表征学习?我们引入了UML:非配对多模态学习者,这是一种模态无关的训练范式,其中单一模型交替处理来自不同模态的输入,同时在这些模态间共享参数。这一设计基于不同模态是共享现实基础的不同投影这一假设,使得模型能够从跨模态结构中获益,而无需明确的配对数据。理论上,在线性数据生成假设下,我们证明了非配对的辅助数据能够产生比单模态训练更严格地反映数据生成过程的表征。实证上,我们展示了使用来自辅助模态(如文本、音频或图像)的非配对数据,能够持续提升跨多种单模态目标(如图像和音频)的下游任务表现。我们的项目页面:https://unpaired-multimodal.github.io/
深度研究代理代表了一種變革性的人工智慧範式,通過複雜的推理和多工具整合來進行專家級別的研究。然而,由於開放式的研究情境和現有基準主要關注孤立能力而非整體表現,評估這些系統仍然極具挑戰性。與傳統的大型語言模型(LLM)任務不同,深度研究系統必須綜合多樣化的來源、生成見解並呈現連貫的發現,這些能力難以通過簡單的驗證來衡量。為解決這一差距,我們引入了DeepResearch-ReportEval,這是一個全面的框架,旨在通過深度研究系統最具代表性的輸出——研究報告來評估其表現。我們的方法系統性地衡量了三個維度:質量、冗餘性和事實性,並採用了一種創新的LLM-as-a-Judge方法,實現了與專家意見的高度一致。我們貢獻了一個包含100個精選查詢的標準化基準,涵蓋12個現實世界類別,從而實現了系統能力的系統性比較。我們對四種領先的商業系統進行了評估,揭示了不同的設計理念和性能權衡,為深度研究從信息助手向智能研究夥伴的演進奠定了基礎見解。源代碼和數據可在以下網址獲取:https://github.com/HKUDS/DeepResearch-Eval。
AI控制協議作為一種防禦機制,旨在阻止不受信任的大型語言模型(LLM)代理在自主環境中造成危害。先前的研究將其視為安全問題,通過利用部署上下文來微妙地完成有害的側任務(如後門插入)進行壓力測試。實際上,大多數AI控制協議根本上依賴於LLM監控器,這可能成為一個關鍵的故障點。我們研究了由一個知曉協議和監控模型的不受信任模型發起的適應性攻擊,這種情況在不受信任的模型訓練時使用了更晚的知識截止點或能夠自主搜索此類信息時是合理的。我們實例化了一種簡單的適應性攻擊向量,攻擊者在模型輸出中嵌入公開已知或零樣本提示注入。採用此策略,前沿模型在兩個主要AI控制基準測試中持續避開多樣化的監控器並完成惡意任務。該攻擊對當前依賴監控器的協議普遍有效。此外,最近的「延遲至重採樣」協議甚至適得其反,其重採樣放大了提示注入,並有效地將其重新構建為最佳n次攻擊。總體而言,對監控模型的適應性攻擊代表了當前控制協議中的一個主要盲點,應成為未來AI控制機制評估的標準組成部分。
並行測試時擴展(TTS)是提升大型語言模型(LLMs)效能的一項關鍵方法,通常通過並行採樣多個基於令牌的思維鏈,並通過投票或搜索來聚合結果。最近在潛在推理方面的進展,即中間推理在連續向量空間中展開,為顯式思維鏈提供了一種更高效的替代方案,然而這類潛在模型是否能同樣受益於並行TTS仍是一個開放性問題,這主要歸因於連續空間中採樣機制的缺失,以及缺乏用於高級軌跡聚合的概率信號。本研究通過解決上述問題,實現了潛在推理模型的並行TTS。在採樣方面,我們引入了兩種受不確定性啟發的隨機策略:蒙特卡羅Dropout和加性高斯噪聲。在聚合方面,我們設計了一個潛在獎勵模型(LatentRM),該模型通過逐步對比目標進行訓練,以評分和指導潛在推理。大量實驗和可視化分析表明,這兩種採樣策略都能有效隨計算資源擴展,並展現出不同的探索動態,而LatentRM則實現了有效的軌跡選擇。總的來說,我們的研究為連續空間中的可擴展推理開闢了新的方向。代碼已發佈於https://github.com/YRYangang/LatentTTS。
零樣本圖像描述模型是近期提出的利用視覺-語言共同空間表徵來為圖像生成描述,而無需依賴配對圖像-文本數據的模型。這類模型通過對文本對齊的圖像特徵進行文本解碼來生成描述,但其應用範圍僅限於全局表徵和整圖描述。我們提出了一個統一的零樣本描述框架,該框架從以圖像為中心轉向以圖塊為中心的範式,使得無需區域級別監督即可對任意區域進行描述。我們不再依賴全局圖像表徵,而是將單個圖塊視為基本的描述單元,並將其聚合以描述從單個圖塊到非連續區域乃至整張圖像的任意區域。我們分析了使現有潛在描述模型能在我們新提出的框架中運作的關鍵要素。實驗表明,如DINO等能生成有意義且密集視覺特徵的骨幹網絡,對於在多種基於區域的描述任務中達到最先進性能至關重要。與其他基線模型和最新競爭對手相比,我們的模型在零樣本密集描述、區域集描述以及新引入的軌跡描述任務中均取得了更優異的性能,凸顯了基於圖塊語義表徵的可擴展描述生成的有效性。項目頁面請訪問:https://paciosoft.com/Patch-ioner/。
同行評審是科學出版的基石,然而它存在著不一致性、評審者主觀性以及可擴展性等挑戰。我們推出了ReviewerToo,這是一個模組化框架,旨在研究和部署AI輔助的同行評審,以系統且一致的評估來補充人類判斷。ReviewerToo支持使用專門的評審角色和結構化評估標準進行系統實驗,並可部分或完全整合到實際的會議工作流程中。我們在精心策劃的ICLR 2025年1,963篇論文提交數據集上驗證了ReviewerToo,其中使用gpt-oss-120b模型的實驗在將論文分類為接受/拒絕的任務上達到了81.8%的準確率,而人類評審者的平均準確率為83.9%。此外,由ReviewerToo生成的評審被LLM評判為質量高於人類平均水平,儘管仍落後於最強的專家貢獻。我們的分析突出了AI評審表現出色的領域(例如,事實核查、文獻覆蓋)以及其面臨挑戰的領域(例如,評估方法新穎性和理論貢獻),強調了持續需要人類專業知識的重要性。基於這些發現,我們提出了將AI整合到同行評審流程中的指導方針,展示了AI如何能夠增強一致性、覆蓋面和公平性,同時將複雜的評估判斷留給領域專家。我們的工作為系統化、混合型的同行評審系統奠定了基礎,這些系統能夠隨著科學出版的增長而擴展。
基於驗證器獎勵強化學習(RLVR)驅動的大型推理模型(LRMs)在解決問題方面展現了強大能力,然而它們常引發過度思考:冗長而曲折的推理過程導致計算成本膨脹。先前RLVR中的懲罰機制設計雖能減少令牌消耗,卻往往損害模型性能,這源於令牌級別監督的過於簡化。本文主張,監督的粒度在平衡效率與準確性中扮演關鍵角色,並提出了群組相對段落懲罰(GRSP),一種段落層面的推理正則化方法。初步分析顯示,推理段落與令牌消耗及模型性能高度相關,因此我們設計了一種跨段落集群的長度感知加權機制。大量實驗證明,GRSP在不嚴重影響準確性的前提下,實現了卓越的令牌效率,尤其在處理更難問題時優勢明顯。此外,GRSP穩定了RL訓練過程,並在不同模型規模下展現出良好的擴展性。
實時口語語言模型(SLMs)在利用思維鏈(CoT)推理方面面臨挑戰,主要原因在於按順序生成整個思維過程所帶來的過高延遲。使SLMs能夠像人類一樣邊說邊想,正日益受到關注。我們首次提出了心智節奏說話(Mind-Paced Speaking, MPS),這是一個受大腦啟發的框架,旨在實現高保真度的實時推理。與人類利用不同大腦區域進行思考和回應相似,我們提出了一種新穎的雙腦方法,採用“構思腦”進行高層次推理,以節奏引導獨立的“表達腦”流暢生成語音。這種分工消除了模式切換,保持了推理過程的完整性。實驗表明,MPS顯著優於現有的邊說邊想方法,並在推理性能上與那些在說話前預先計算完整CoT的模型相當,同時大幅降低了延遲。在零延遲配置下,該方法在數學推理任務Spoken-MQA上達到了92.8%的準確率,並在語音對話任務URO-Bench上獲得了82.5分。我們的工作有效彌合了高質量推理與實時交互之間的差距。
基於大型語言模型(LLM)的智能體在處理長期任務時,由於缺乏全局規劃,往往陷入無腦試錯和產生虛幻行動的困境。本文提出了一種計劃與執行框架,並介紹了EAGLET,這是一種高效且有效的規劃器訓練方法,旨在無需人工干預的情況下增強執行智能體的規劃能力。具體而言,我們通過兩步過程訓練一個即插即用的全局規劃器:首先,利用我們提出的同源共識過濾策略從先進的LLM中合成高質量計劃,並應用微調作為冷啟動。此外,我們進一步通過基於規則的強化學習階段改進規劃器,使用一種新穎的執行能力增益獎勵,確保其能夠處理不同難度的任務指令。在三個長期智能體任務上的實驗表明,配備我們規劃器的執行智能體超越了現有方法,達到了新的最先進性能。同時,EAGLET相比基於強化學習的基線方法,將訓練成本降低了8倍,且無需人工努力或額外訓練數據,提供了一種高效且有效的解決方案。
作為視覺內容生成的新範式,自回歸文本到圖像模型因其序列化的逐令牌解碼過程而面臨推理速度緩慢的問題,通常需要數千次模型前向傳播才能生成單張圖像。為解決這一效率問題,我們提出了推測性雅可比去噪解碼(SJD2)框架,該框架將去噪過程融入雅可比迭代中,從而實現自回歸模型中的並行令牌生成。我們的方法引入了一種下一乾淨令牌預測範式,使預訓練的自回歸模型能夠接受噪聲擾動的令牌嵌入,並通過低成本微調預測下一乾淨令牌。這一去噪範式引導模型趨向更穩定的雅可比軌跡。在推理過程中,我們的方法用高斯噪聲初始化令牌序列,並在嵌入空間中進行迭代的下一乾淨令牌預測。我們採用概率準則來驗證並並行接受多個令牌,並根據去噪軌跡對未接受的令牌進行下一輪迭代的細化。實驗表明,我們的方法能夠在保持生成圖像視覺質量的同時,通過減少模型前向傳播次數來加速生成過程。
參考視頻對象分割(RVOS)旨在根據查詢句子分割視頻中提及的對象。現有的大多數方法需要依賴密集掩碼註釋進行端到端訓練,這可能耗費大量計算資源且擴展性較差。在本研究中,我們重新審視了RVOS問題,並致力於探討該任務的關鍵所在。基於現有的基礎分割模型,我們將RVOS任務分解為參考、視頻和分割三個要素,並提出了一種時序提示生成與選擇(Tenet)框架來處理參考和視頻要素,而將分割問題留給基礎模型解決。為了有效地將基於圖像的基礎分割模型適應於參考視頻對象分割,我們利用現成的對象檢測器和跟蹤器生成與參考句子相關的時序提示。雖然高質量的時序提示可以被生成,但從置信度分數中難以輕易識別它們。為解決這一問題,我們提出了提示偏好學習來評估生成的時序提示的質量。通過利用這些提示來指導基於圖像的基礎分割模型,我們能夠為參考對象生成高質量的掩碼,從而實現模型對參考視頻對象分割的高效適應。在RVOS基準測試上的實驗證明了Tenet框架的有效性。
大型语言模型(LLMs)及新兴的代理框架正通过实现自然语言推理、生成性注释及多模态数据整合,开始变革单细胞生物学领域。然而,这一进展在数据模态、架构及评估标准方面仍显分散。LLM4Cell首次对58个专为单细胞研究开发的基础与代理模型进行了统一调查,涵盖RNA、ATAC、多组学及空间模态。我们将这些方法归类为五大系列——基础型、文本桥梁型、空间型、多模态型、表观基因组型及代理型,并将其映射至包括注释、轨迹与扰动建模、药物反应预测在内的八大关键分析任务。依托超过40个公开数据集,我们分析了基准适用性、数据多样性以及伦理或可扩展性限制,并在涵盖生物学基础、多组学对齐、公平性、隐私及可解释性等10个领域维度上评估了模型。通过连接数据集、模型与评估领域,LLM4Cell首次提供了语言驱动单细胞智能的综合视角,并阐明了在可解释性、标准化及可信模型开发方面面临的开放挑战。
大型語言模型(LLMs)因其龐大的計算和記憶體需求而面臨顯著的部署挑戰。雖然半結構化剪枝,尤其是2:4稀疏性,提供了一條通往實際硬體加速的途徑,但現有方法往往會導致性能大幅下降。為彌補這一差距,我們引入了ARMOR(基於矩陣分解的自適應表示),這是一種新穎的一次性訓練後剪枝算法。ARMOR並非直接剪枝權重,而是將每個權重矩陣分解為一個2:4稀疏核心,並由兩個低開銷的塊對角矩陣包裹。這些包裹矩陣作為高效的前後轉換誤差校正器,相比傳統的2:4剪枝技術,提供了更大的靈活性以保持模型質量。稀疏核心和塊對角包裹矩陣通過塊座標下降算法選擇,該算法最小化層級代理損失。我們從理論上證明,這種優化保證收斂到一個代理損失小於或等於最先進剪枝算法的解。在Llama(Touvron等,2023;Dubey等,2024)和Qwen(Yang等,2025)模型系列上的實驗表明,ARMOR在多種下游任務和困惑度評估中始終顯著優於最先進的2:4剪枝方法。ARMOR在保持2:4剪枝的推理加速和大幅減少記憶體使用的同時,實現了這種卓越性能,從而在模型壓縮和任務準確性之間建立了更有效的平衡。
現實世界中的機器人代理必須在部分可觀測性和長時程的條件下行動,其中關鍵線索可能在影響決策之前很早就出現。然而,大多數現代方法僅依賴瞬時信息,而沒有整合過去的洞察。標準的循環或變換器模型在保留和利用長期依賴性方面存在困難:上下文窗口截斷了歷史,而簡單的記憶擴展在規模和稀疏性下失效。我們提出了ELMUR(帶有更新/重寫功能的外部層記憶),這是一種具有結構化外部記憶的變換器架構。每一層都維護記憶嵌入,通過雙向交叉注意力與其交互,並使用最近最少使用(LRU)記憶模塊通過替換或凸混合來更新它們。ELMUR將有效時程擴展到注意力窗口的100,000倍,並在長達一百萬步的合成T型迷宮任務中實現了100%的成功率。在POPGym中,它在超過一半的任務上優於基線。在MIKASA-Robo稀疏獎勵操作任務中,基於視覺觀測,它幾乎將強基線的性能提升了一倍。這些結果表明,結構化的層局部外部記憶為部分可觀測性下的決策提供了一種簡單且可擴展的方法。
如何在不抹除先前能力的前提下,教导大型多模态模型(LMMs)新技能?我们研究了在五种目标技能上的顺序微调,同时监控三个模型系列在八个保留基准上的通用能力。我们观察到,在针对特定任务进行窄化微调后,保留任务上表现出的“遗忘”现象在后续阶段可部分恢复。我们将这一行为归因于输出令牌分布的可测量变化,这一变化通过一个与遗忘共变的简单计数偏差探针得以显现。基于这一观察,我们识别出两种简单且稳健的调优策略,它们在学习新技能的同时有效限制了模型性能的漂移:(i)仅更新自注意力投影层,以及(ii)仅更新多层感知器(MLP)的Gate&Up部分,同时冻结Down投影。在跨模型和跨任务的实验中,这些选择在显著提升目标技能表现的同时,很大程度上保留了模型在保留任务上的性能。相关代码已发布于https://github.com/jessemelpolio/LMM_CL。
大型語言模型(LLMs)在推理方面取得了顯著進展,但在寫作、信息檢索或提供實用指導等任務中,有時會產生對用戶而言次優的回應。傳統的對齊實踐通常假設最大化模型獎勵也等同於最大化用戶福祉,但這一假設在實踐中往往不成立:當用戶偏好簡潔答案時,模型可能會過度解釋或生成冗長的推理。這類行為類似於囚徒困境,其中個體理性的選擇導致了社會次優的結果。根本挑戰在於缺乏一種既有利於LLM又有利於用戶的原則性決策機制。我們提出了博弈論對齊(GTAlign),這是一個將博弈論決策整合到推理和訓練中的對齊框架。在推理過程中,模型明確將用戶與LLM的互動視為策略性博弈:它在推理鏈中構建收益矩陣,以估算自身與用戶的福祉,然後選擇對雙方都有利的行動。在訓練階段,我們引入了一種互惠福祉獎勵,強化合作性回應,使模型行為與社會效率結果保持一致。此外,我們還引入了一種推理技術,利用博弈論推理在LLM服務定價策略變化時動態調整LLM的回應。大量實驗表明,與基線相比,GTAlign在多樣化任務中顯著提升了推理效率、答案質量及互惠福祉。代碼已公開於https://github.com/ulab-uiuc/GTAlign。
個人敘事是作者為賦予自身經歷意義而構建的故事。風格,即作者運用語言表達自我的獨特方式,對於這些敘事如何傳達主觀體驗至關重要。然而,目前尚缺乏一個系統分析這些風格選擇的正式框架。我們提出了一種新穎的方法,將個人敘事中的風格形式化為作者在傳達主觀體驗時所做的語言選擇模式。我們的框架整合了三個領域:功能語言學將語言確立為一個有意義選擇的系統,計算機科學提供了自動提取和分析序列模式的方法,而這些模式與心理學觀察相聯繫。利用語言模型,我們自動提取諸如過程、參與者和環境等語言特徵。我們將此框架應用於數百個夢境敘事,包括一項針對患有創傷後應激障礙的戰爭退伍軍人的案例研究。對其敘事的分析揭示了獨特的模式,特別是言語過程如何主導心理過程,展示了語言選擇與心理狀態之間的關係。
当前的自监督单目深度估计(MDE)方法由于语义-空间知识提取不足而面临性能限制。为解决这一挑战,我们提出了Hybrid-depth,一个新颖的框架,系统地整合基础模型(如CLIP和DINO)以提取视觉先验并获取足够的上下文信息用于MDE。我们的方法引入了一个由粗到细的渐进学习框架:1)首先,我们在对比语言指导下聚合来自CLIP(全局语义)和DINO(局部空间细节)的多粒度特征。设计了一个比较远近图像块的代理任务,利用文本提示强制深度感知特征对齐;2)接着,在粗粒度特征的基础上,我们整合相机姿态信息和像素级语言对齐以优化深度预测。该模块作为即插即用的深度编码器,与现有的自监督MDE管道(如Monodepth2、ManyDepth)无缝集成,增强了连续深度估计。通过语言指导聚合CLIP的语义上下文和DINO的空间细节,我们的方法有效解决了特征粒度不匹配的问题。在KITTI基准上的大量实验表明,我们的方法在所有指标上均显著优于SOTA方法,同时也确实有益于下游任务如BEV感知。代码可在https://github.com/Zhangwenyao1/Hybrid-depth获取。
大型語言模型(LLMs)需要高效的知識編輯(KE)來更新事實信息,然而現有方法在多跳事實回憶中表現出顯著的性能衰退。這種失敗在編輯涉及推理鏈中的中間隱含主體時尤為嚴重。通過因果分析,我們揭示了這一限制源於對鏈式知識在神經元層面如何動態表示和利用的忽視。我們發現,在多跳推理過程中,隱含主體作為查詢神經元發揮作用,它們依次激活跨變壓器層的相應值神經元,以累積信息直至得出最終答案,這一動態過程是先前KE工作所忽視的。基於這一洞察,我們提出了ACE:面向多跳事實回憶的屬性控制知識編輯框架,該框架利用神經元層面的屬性來識別和編輯這些關鍵的查詢-值(Q-V)路徑。ACE為多跳KE提供了一種基於機制的解決方案,在GPT-J和Qwen3-8B上分別比最先進的方法高出9.44%和37.46%。我們的分析進一步揭示了Qwen3中更細粒度的激活模式,並表明值神經元的語義可解釋性是由查詢驅動的累積所協調的。這些發現基於對內部推理機制的原則性理解,為提升KE能力開辟了一條新途徑。
個性化擴散模型讓使用者能夠生成包含特定主題的新圖像,相比僅使用文字提示提供了更多控制。然而,這些模型在僅重現主題圖像而忽略文字提示時,往往表現欠佳。我們觀察到,一種流行的個性化方法——IP-Adapter,在推理過程中會自動生成遮罩,從而將主題與背景明確分割。我們提出在第二輪處理中使用這些自動生成的遮罩來遮蓋圖像標記,從而將其限制在主題而非背景上,使得文字提示能夠關注圖像的其餘部分。對於描述地點和場景的文字提示,這種方法生成的圖像既能準確描繪主題,又能完美匹配提示。我們將我們的方法與其他幾種測試時的個性化方法進行比較,發現我們的方法在提示與源圖像的對齊度上表現出色。