每日精選AI研究論文及翻譯
我們系統性地探討一個廣泛討論的問題:LLM 是否真正理解自己所說的話?這與更為熟悉的「隨機鸚鵡」術語有關。為此,我們提出了一個經過精心設計的物理概念理解任務 PhysiCo 的綜合評估。我們的任務通過使用抽象描述物理現象的網格格式輸入來緩解記憶問題。這些網格代表不同程度的理解,從核心現象、應用示例到與網格世界中其他抽象模式的類比。對我們任務的全面研究表明:(1)包括 GPT-4o、o1 和 Gemini 2.0 快閃思維在內的最先進的 LLMs 落後於人類約 40%;(2)隨機鸚鵡現象存在於 LLMs 中,因為它們在我們的網格任務上失敗,但可以在自然語言中很好地描述和識別相同的概念;(3)我們的任務挑戰 LLMs 是由於內在困難,而不是不熟悉的網格格式,因為在相同格式的數據上的上下文學習和微調對它們的表現幫助不大。
在現代大型語言模型(LLMs)中,處理非常長的上下文長度會帶來重大挑戰,因為這會導致推理速度變慢並增加記憶成本。此外,大多數現有的預訓練LLMs無法推廣到超出其原始訓練序列長度的範圍。為了實現有效且實用的長上下文利用,我們引入了InfiniteHiP,一種新穎且實用的LLM推理框架,通過模塊化的分層標記修剪算法動態地消除無關的上下文標記,從而加快處理速度。我們的方法還允許根據LLMs內部注意力模式選擇性地應用各種RoPE調整方法,從而實現對更長序列的泛化。此外,在推理過程中,我們將關鍵-值緩存卸載到主機內存中,顯著減少了GPU內存壓力。因此,InfiniteHiP使得單個L40s 48GB GPU能夠處理高達3百萬個標記,比原來大3倍,而且不會永久丟失上下文信息。我們的框架實現了對於100萬個標記上下文的18.95倍注意力解碼加速,而無需進行額外的訓練。我們在SGLang框架中實現了我們的方法,並通過廣泛的評估展示了其有效性和實用性。
在文字到圖像(T2I)擴散模型中,大規模文本編碼器展現出卓越的性能,能夠從文字提示中生成高質量的圖像。與依賴多次迭代步驟的去噪模塊不同,文本編碼器僅需進行單次前向傳遞即可生成文本嵌入。然而,儘管對總推理時間和浮點運算(FLOPs)的貢獻很小,文本編碼器卻需要顯著更高的記憶體使用量,高達去噪模塊的八倍。為解決這種效率問題,我們提出了Skip and Re-use layers(Skrr),這是一種針對T2I擴散模型中文本編碼器的簡單而有效的修剪策略。Skrr通過有針對性地跳過或重複使用轉換器塊中的某些層來利用轉換器塊中的固有冗餘,從而降低記憶體消耗而不影響性能。大量實驗表明,即使在高稀疏水平下,Skrr仍能保持與原始模型相當的圖像質量,勝過現有的塊狀修剪方法。此外,Skrr實現了最先進的記憶體效率,同時在多個評估指標(包括FID、CLIP、DreamSim和GenEval分數)上保持性能。
最近擴散技術的進步推動了影像和視頻生成達到前所未有的質量水平,顯著加快了生成式人工智慧的部署和應用。然而,3D形狀生成技術迄今仍然落後,受到3D數據規模的限制、3D數據處理的複雜性以及對3D領域先進技術的不足探索所限制。目前的3D形狀生成方法在輸出質量、泛化能力和與輸入條件的對齊方面面臨著重大挑戰。我們提出了TripoSG,一種新的簡化形狀擴散範式,能夠生成與輸入圖像精確對應的高保真度3D網格。具體來說,我們提出:1)一種用於3D形狀生成的大規模矯正流轉換器,通過在大量高質量數據上進行訓練實現了最先進的保真度。2)一種結合SDF、法線和eikonal損失的混合監督訓練策略,用於3D VAE,實現了高質量的3D重建性能。3)一個數據處理流水線,用於生成200萬個高質量3D樣本,突出了在訓練3D生成模型時數據質量和數量的關鍵規則。通過全面的實驗,我們驗證了我們新框架中每個組件的有效性。這些部分的無縫集成使TripoSG在3D形狀生成方面實現了最先進的性能。由於高分辨率能力,生成的3D形狀展示了增強的細節,並且對輸入圖像表現出卓越的保真度。此外,TripoSG展示了在從不同圖像風格和內容生成3D模型方面的改進多樣性,展示了強大的泛化能力。為了促進3D生成領域的進步和創新,我們將使我們的模型公開可用。
隨著公開模型數量的增加,現在可能有預先訓練的線上模型可滿足使用者所需的大多數任務。然而,目前的模型搜尋方法仍然基本上是在文件中進行基於文本的搜索,因此使用者無法找到相關的模型。本文提出了ProbeLog,一種檢索分類模型的方法,該模型可以識別目標概念,例如"狗",而無需訪問模型元數據或訓練數據。與以往的探測方法不同,ProbeLog 通過觀察模型對一組固定輸入(探針)的響應,為每個輸出維度(logit)計算描述符。我們的方法支持基於 logit 的檢索("找到更多像這樣的 logit")和零樣本、基於文本的檢索("找到所有與狗相對應的 logit")。由於基於探測的表示需要通過模型進行多次昂貴的前向傳遞,我們開發了一種基於協同過濾的方法,將編碼存儲庫的成本降低了 3 倍。我們展示了 ProbeLog 在現實世界和細粒度搜索任務中實現了高檢索準確性,並且可擴展到完整大小的存儲庫。
我們介紹了SelfCite,一種新穎的自監督方法,它對齊LLM以生成高質量、細粒度、句級引文,用於其生成的回應中的陳述。SelfCite不僅依賴昂貴且勞動密集的標註,還利用LLM通過上下文消除提供的獎勵信號:如果需要引文,則從上下文中刪除引用的文本應該防止相同的回應;如果足夠,則僅保留引用的文本應該保留相同的回應。這種獎勵可以引導推論時的最佳N採樣策略,顯著改善引文質量,並可用於偏好優化,直接微調模型以生成更好的引文。SelfCite的有效性通過在五個長形式問答任務中跨LongBench-Cite基準測試,將引文F1提高多達5.3個百分點來加以證明。
利用多模式大型語言模型(MLLMs)來創建具體化代理人為應對現實世界任務提供了一個有前途的途徑。雖然以語言為中心的具體化代理人已經引起了相當大的關注,但基於MLLM的具體化代理人由於缺乏全面的評估框架而尚未被充分探索。為彌合這一差距,我們介紹了EmbodiedBench,這是一個旨在評估以視覺驅動的具體化代理人的廣泛基準。EmbodiedBench包括:(1)一個多樣化的測試任務集,涵蓋四個環境,從高層語義任務(例如家庭)到涉及原子動作的低層任務(例如導航和操作);以及(2)六個精心策劃的子集,評估基本代理人能力,如常識推理、複雜指令理解、空間意識、視覺感知和長期規劃。通過大量實驗,我們在EmbodiedBench中評估了13種領先的專有和開源MLLM。我們的研究發現:MLLM在高層任務方面表現出色,但在低層操作方面表現不佳,最佳模型GPT-4o的平均得分僅為28.9%。EmbodiedBench提供了一個多面向的標準化評估平台,不僅突顯了現有挑戰,還提供了有價值的見解,以推進基於MLLM的具體化代理人。我們的程式碼可在https://embodiedbench.github.io 上找到。
本文探討資料選擇和模型合併方法,旨在將像 DeepSeek R1 這樣的先進推理能力納入特定語言的大型語言模型(LLMs),特別聚焦於泰語LLM。我們的目標是增強特定語言LLMs的推理能力,同時保持其目標語言能力。DeepSeek R1 在推理方面表現出色,但主要受益於高資源語言,如英語和中文。然而,由於以英語為中心的訓練數據和模型優化佔主導地位,低資源語言仍未得到應有的服務,這限制了這些語言的性能。這種限制導致代碼切換不可靠,並且在低資源語言的任務上效果不佳。與此同時,當地和區域LLM倡議已嘗試彌合這一差距,通過開發專注於提高當地語言忠實度的特定語言LLMs。我們證明,僅使用公開可用的數據集和120美元的計算預算,就可以增強特定語言LLMs的推理能力,使其與DeepSeek R1的水平相匹敵,同時不損害其在目標語言任務上的性能。
角色扮演語言代理人(RPLAs)已成為大型語言模型(LLMs)應用的前景。然而,模擬已建立角色對RPLAs來說是一項具有挑戰性的任務,原因在於缺乏真實角色數據集以及使用此類數據的微妙評估方法。在本文中,我們提出了CoSER,這是一個高質量數據集、開放模型和評估協議的集合,旨在實現對已建立角色的有效RPLAs。CoSER數據集涵蓋了來自771本知名書籍的17,966個角色。它提供了具有真實世界細節的對話,以及多樣的數據類型,如對話設置、角色經歷和內心想法。我們借鑑表演方法論,引入了給定情況表演,用於訓練和評估角色扮演LLMs,在這種方法中,LLMs依次扮演書中多個角色。利用我們的數據集,我們開發了CoSER 8B和CoSER 70B,即基於LLaMA-3.1模型構建的先進開放角色扮演LLMs。廣泛的實驗證明了CoSER數據集對於RPLA的訓練、評估和檢索的價值。此外,CoSER 70B在我們的評估和三個現有基準測試中展現出最新技術,超越或匹敵GPT-4o,即在InCharacter和LifeChoice基準測試中分別實現了75.80%和93.47%的準確率。
透過思維鏈(Chain-of-Thought,CoT)回答問題已顯著增強大型語言模型(LLMs)的推理能力,然而其對大型多模型模型(LMMs)的影響仍缺乏系統性評估和深入研究。本文介紹了MME-CoT,一個專門評估LMMs的CoT推理表現的基準,涵蓋六個領域:數學、科學、OCR、邏輯、時空和一般場景。作為該領域的首個全面研究,我們提出了一套全面的評估套件,包括三個新穎的指標,評估推理質量、韌性和效率在細粒度水平上。通過精心挑選的高質量數據和獨特的評估策略,我們對最先進的LMMs進行了深入分析,揭示了幾個關鍵見解:1)具有反思機制的模型展現出優越的CoT質量,Kimi k1.5優於GPT-4o並展示了最高質量結果;2)CoT提示通常會降低LMM在感知密集任務上的表現,暗示可能存在有害的過度思考行為;以及3)儘管CoT質量很高,具有反思的LMMs在正常回應和自我修正階段均表現出顯著的低效率。我們希望MME-CoT成為推動LMMs多模態推理的基礎。專案頁面:https://mmecot.github.io/
在2D視覺領域已初步探索了無編碼器架構,然而它們是否能有效應用於3D理解場景仍是一個開放問題。本文首次全面調查了無編碼器架構潛力,以克服基於編碼器的3D大型多模型(LMM)所面臨的挑戰。這些挑戰包括無法適應不同點雲解析度,以及編碼器生成的點特徵未滿足大型語言模型(LLMs)的語義需求。我們確定了3D LMMs去除編碼器並使LLM承擔3D編碼器角色的關鍵方面:1)我們在預訓練階段提出了LLM嵌入式語義編碼策略,探索各種點雲自監督損失的影響。並提出了混合語義損失以提取高層次語義。2)我們在指導調整階段引入了分層幾何聚合策略。這將歸納偏差納入LLM早期層,以便專注於點雲的局部細節。最終,我們提出了第一個無編碼器3D LMM,ENEL。我們的7B模型與當前最先進的模型ShapeLLM-13B相媲美,在分類、字幕和VQA任務上分別達到55.0%、50.92%和42.7%。我們的結果表明,無編碼器架構在3D理解領域取代基於編碼器的架構具有極高的潛力。代碼已發布在https://github.com/Ivan-Tang-3D/ENEL。
隨著像 OpenAI o3 和 DeepSeek-R1 這樣的先進推理模型的出現,大型語言模型(LLMs)展示了卓越的推理能力。然而,它們執行嚴謹邏輯推理的能力仍是一個未解之謎。本調查綜合了LLMs內邏輯推理的最新進展,這是人工智慧研究中一個關鍵領域。它概述了LLMs中邏輯推理的範圍、其理論基礎以及用於評估推理能力的基準。我們分析了不同推理範式(演繹、歸納、演繹性和類比性)之間現有的能力,並評估了增強推理表現的策略,包括以數據為中心的調整、強化學習、解碼策略和神經符號方法。評論最後提出了未來的方向,強調了需要進一步探索以加強人工智慧系統中的邏輯推理。
在快速發展的自然語言處理領域中,大型語言模型(LLMs)被賦予越來越複雜的推理挑戰。傳統方法如思維鏈提示顯示出潛力,但往往無法充分利用模型的推理能力。本文介紹了SQuARE(Sequential Question Answering Reasoning Engine),一種旨在通過自我質詢範式改進推理的新型提示技術。在CoT框架的基礎上,SQuARE提示模型在處理主要查詢之前生成和解決多個輔助問題,促進對主題各個方面的更全面探索。我們使用Llama 3和GPT-4o模型在多個問答數據集上進行了廣泛評估,結果顯示SQuARE明顯優於傳統的CoT提示和現有的重述和回答方法。通過系統地分解查詢,SQuARE提升了LLM在推理任務中的能力。代碼可在https://github.com/IntelLabs/RAG-FiT/tree/square 公開獲取。
本文介紹了颱風 T1,這是一個開放的努力,旨在開發一個開放的泰國推理模型。推理模型是建立在大型語言模型(LLMs)之上的一種相對新型的生成模型。推理模型在最終得出答案之前生成一長串思維,這種方法被發現能夠提高在複雜任務上的表現。然而,對於開發這種能夠在低資源語言中生成跡象的推理模型的細節相對有限。颱風 T1 提出了一個開放的努力,深入探討以監督微調利用開放數據集,而非強化學習的方式更具成本效益地開發推理模型的細節。本文分享了有關合成數據生成和訓練的細節,以及我們的數據集和模型權重。此外,我們提供了從開發一個能夠在不同領域通用並能夠使用泰語等低資源語言生成推理跡象的推理模型中獲得的見解。我們希望這一開放努力為這一領域的進一步研究奠定基礎。
Chain-of-Thought 顯著增強了模型的推理能力,但也隨之帶來了推理成本的大幅增加,這是由於長鏈所致。通過觀察到在簡單任務下推理路徑可以輕鬆壓縮,但在困難任務下則困難重重,我們探索了僅使用一個模型彈性地控制推理路徑長度的可行性,從而根據任務難度動態地減少推理模型的推理開銷。我們提出了一種名為 CoT-Valve 的新調整和推理策略,旨在允許模型生成不同長度的推理鏈。為實現此目的,我們提出了識別參數空間中一個方向的方法,通過操縱該方向,可以有效地控制生成的 CoT 的長度。此外,我們展示了這種特性對於壓縮推理鏈是有價值的。我們構建了包含從長到短鏈的相同問題的數據集,並探索了兩種增強策略用於 CoT-Valve:(1)一種精確的長度可壓縮 CoT 調整方法,和(2)一種漸進的鏈長度壓縮方法。我們的實驗表明,CoT-Valve 成功實現了鏈的可控性和可壓縮性,並且表現優於基於提示的控制。我們將此方法應用於 QwQ-32B-Preview,將 GSM8K 上的推理鏈從 741 個縮減至 225 個標記,僅略微降低性能(從 95.07% 至 94.92%),並將 AIME 上的推理鏈從 6827 個縮減至 4629 個標記,僅多出一個錯誤答案。
多模式嵌入模型因其能夠將來自不同模態(例如文本和圖像)的數據映射到統一的表示空間而受到廣泛關注。然而,有限的標記多模式數據通常會影響嵌入性能。最近的方法利用數據合成來解決這個問題,然而合成數據的質量仍然是一個關鍵瓶頸。在這項工作中,我們確定了三個高質量合成多模式數據的標準。首先,廣泛的範圍確保生成的數據涵蓋各種任務和模態,使其適用於各種下游場景。其次,強大的跨模態對齊使不同模態在語義上保持一致。第三,高保真度確保合成數據保留逼真的細節,以增強其可靠性。在這些原則的指導下,我們合成了數據集:(1)涵蓋各種任務、模態組合和語言,(2)通過多模式大型語言模型的單次深思過程生成,以及(3)將真實世界的圖像與準確且相關的文本相結合,通過自我評估和改進確保保真度。利用這些高質量的合成和標記數據集,我們訓練了一個多模式多語言E5模型mmE5。大量實驗表明,mmE5在MMEB基準測試中實現了最先進的性能,並在XTD基準測試中實現了卓越的多語言性能。我們的代碼、數據集和模型已在https://github.com/haon-chen/mmE5 上發布。
我們致力於開發一個通用的神經追踪控制器,用於從人類參考中進行靈巧操作。該控制器旨在管理靈巧機器人手,以便根據人體與物體之間的運動學互動所定義的各種目的來操作不同的物體。開發這樣的控制器受到靈巧操作的複雜接觸動力學以及對適應性、通用性和穩健性的需求的挑戰。由於當前的強化學習和軌跡優化方法往往依賴於特定任務的獎勵或精確系統模型,因此這變得複雜。我們提出了一種方法,通過精心挑選大規模成功的機器人追踪演示,包括人類參考和機器人動作對,來訓練一個神經控制器。利用數據滾輪,我們通過不斷增強控制器的性能以及成功追踪演示的數量和質量來進行迭代。我們利用可用的追踪演示,並精心整合強化學習和模仿學習,以提高控制器在動態環境中的性能。同時,為了獲得高質量的追踪演示,我們通過在同伦优化方法中利用學習的追踪控制器來個別優化每個軌跡的追踪。同伦优化,模仿思維鏈,有助於解決具有挑戰性的軌跡追踪問題,以增加演示的多樣性。我們通過訓練一個通用的神經控制器並在模擬和真實世界中進行評估來展示我們的成功。我們的方法相對於領先基準線實現了超過10%的成功率提升。項目網站上提供了帶有動畫結果的鏈接:https://meowuu7.github.io/DexTrack/。
大型語言模型(LLMs)中的數學推理通常是通過具有有限數值範圍的基準來評估的,這無法反映出在不同規模下解決現實世界問題的能力。此外,大多數現有的評估方法僅將模型輸出與基本真實答案進行比較,遮蔽了對推理過程的洞察。為了解決這些限制,我們引入了GSM-Ranges,這是一個從GSM8K衍生出的數據集生成器,系統地擾亂數學問題中的數值,以評估模型對不同數值範圍的穩健性。此外,我們提出了一種新穎的評分方法,區分了邏輯和非邏輯錯誤,提供了對推理過程的更精確評估,超越了計算準確性。我們對各種模型進行的實驗顯示,在數值複雜度提高時,邏輯錯誤率顯著增加,高達14個百分點,表明在處理超出分佈範圍的數值時,推理能力存在普遍弱點。此外,儘管模型在獨立算術任務上表現出色,但當計算嵌入到文字問題中時,性能大幅下降。這些發現全面評估了LLMs的數學推理能力,並為改善語言模型中數值泛化的未來研究方向提供了信息。
製作魔法和幻覺是電影製作中最令人振奮的部分之一,視覺效果(VFX)是打造難忘電影體驗的強大動力。儘管最近生成人工智慧的進步推動了通用圖像和視頻合成的發展,可控制VFX生成領域仍相對未被充分探索。在這項工作中,我們提出了一種新的動畫VFX生成範式,即圖像動畫,其中動態效果是從易於使用的文本描述和靜態參考圖像生成的。 我們的工作主要有兩個貢獻:(i)Open-VFX,第一個高質量VFX視頻數據集,涵蓋了15個不同類別的效果,並附有文本描述、空間條件的實例分割遮罩和時間控制的起始-結束時間戳。 (ii)VFX Creator,一個簡單而有效的可控VFX生成框架,基於Video Diffusion Transformer。該模型包含一個空間和時間可控的LoRA適配器,需要極少的訓練視頻。具體而言,一個即插即用的遮罩控制模塊實現了實例級空間操作,而在擴散過程中嵌入的標記化起始-結束運動時間戳,以及文本編碼器,允許對效果的時間控制進行精確調節。 對Open-VFX測試集的廣泛實驗表明,所提出的系統在生成逼真和動態效果方面優越,實現了空間和時間可控性方面的最新性能和泛化能力。此外,我們引入了一個專門的指標來評估時間控制的精確性。通過將傳統VFX技術與生成方法相結合,VFX Creator為高效且高質量的視頻效果生成開啟了新的可能性,使先進的VFX技術更廣泛地可用於更廣泛的受眾。
潛在的3D重建已顯示出在賦予3D語義理解和3D生成方面的巨大潛力,通過將2D特徵提煉到3D空間中。然而,現有方法在2D特徵空間和3D表示之間存在領域差距,導致渲染性能下降。為應對這一挑戰,我們提出了一種新穎的框架,將3D意識融入2D潛在空間中。該框架包括三個階段:(1)一種考慮對應的自編碼方法,增強2D潛在表示的3D一致性,(2)一個潛在輻射場(LRF),將這些具有3D意識的2D表示提升到3D空間,以及(3)一種VAE-輻射場(VAE-RF)對齊策略,改善從渲染的2D表示解碼的圖像。大量實驗表明,我們的方法在合成性能和跨不同室內外場景數據集的泛化能力方面優於最先進的潛在3D重建方法。據我們所知,這是首個展示從2D潛在表示構建的輻射場表示能夠產生逼真的3D重建性能的工作。
工業異常檢測在 MVTec-AD 和 VisA 等數據集的支持下取得了進展。然而,這些數據集在缺陷樣本數量、缺陷類型和現實場景可用性方面存在限制。這些限制阻礙了研究人員進一步探索以更高準確性進行工業檢測的性能。為此,我們提出了一個新的大規模異常檢測數據集,名為3CAD,該數據集源自真實的3C生產線。具體而言,所提出的3CAD 包括八種不同類型的製造零件,總計27,039 張高分辨率圖像,標記了像素級異常。3CAD 的主要特點是它涵蓋了不同大小的異常區域、多種異常類型,以及每個異常圖像可能存在多個異常區域和多種異常類型。這是專門用於3C產品質量控制的最大和第一個異常檢測數據集,供社區探索和開發使用。同時,我們提出了一個簡單而有效的無監督異常檢測框架:Coarse-to-Fine 檢測範式與 Recovery Guidance(CFRG)。為了檢測小缺陷異常,所提出的CFRG 使用了粗到細的檢測範式。具體而言,我們利用異質蒸餾模型進行粗定位,然後通過分割模型進行細定位。此外,為了更好地捕捉正常模式,我們引入了恢復特徵作為引導。最後,我們在3CAD 數據集上報告了我們的CFRG 框架和流行的異常檢測方法的結果,展示了強大的競爭力,並提供了一個極具挑戰性的基準,以促進異常檢測領域的發展。數據和代碼可在以下鏈接獲取:https://github.com/EnquanYang2022/3CAD。