每日精選AI研究論文及翻譯
大型推理模型(LRMs),如OpenAI-o1和DeepSeek-R1,通过利用长链思维(CoT)在复杂推理任务中展现了卓越的能力。然而,这些模型由于仅依赖内部推理过程,常常出现幻觉和效率低下的问题。本文介绍了START(自教导工具集成长链思维推理大语言模型),这是一种新型的工具集成长链思维推理LLM,通过利用外部工具显著增强了推理能力。通过代码执行,START能够进行复杂计算、自我检查、探索多种方法以及自我调试,从而解决了LRMs的局限性。START的核心创新在于其自学习框架,该框架包含两项关键技术:1)提示推理(Hint-infer):我们证明,在LRM的推理过程中插入人工设计的提示(例如,“等等,也许在这里使用Python是个好主意。”)能有效激发其利用外部工具的能力,而无需任何演示数据。提示推理还可以作为一种简单有效的序列测试时间扩展方法;2)提示拒绝采样微调(Hint-RFT):Hint-RFT结合了Hint-infer和RFT,通过对LRM通过Hint-infer生成的带有工具调用的推理轨迹进行评分、筛选和修改,随后对LRM进行微调。通过这一框架,我们对QwQ-32B模型进行了微调,实现了START。在博士级科学问答(GPQA)、竞赛级数学基准(AMC23、AIME24、AIME25)以及竞赛级代码基准(LiveCodeBench)上,START的准确率分别达到了63.6%、95.0%、66.7%、47.1%和47.3%。它显著超越了基础QwQ-32B,并达到了与最先进的开放权重模型R1-Distill-Qwen-32B和专有模型o1-Preview相当的性能。
近期,基於影片的多模態大型語言模型(Video-LLMs)的進展,通過將影片處理為一系列圖像幀,顯著提升了影片理解能力。然而,許多現有方法在視覺骨幹中獨立處理每一幀,缺乏顯式的時間建模,這限制了它們捕捉動態模式並有效處理長影片的能力。為解決這些限制,我們提出了STORM(時空令牌減少用於多模態LLMs),這是一種新穎的架構,在圖像編碼器與LLM之間引入了一個專用的時間編碼器。我們的時間編碼器利用Mamba狀態空間模型,將時間信息整合到圖像令牌中,生成保留整個影片序列中幀間動態的豐富表示。這種豐富的編碼不僅增強了影片推理能力,還實現了有效的令牌減少策略,包括測試時採樣和基於訓練的時間與空間池化,大幅降低了對LLM的計算需求,而無需犧牲關鍵的時間信息。通過整合這些技術,我們的方法在減少訓練和推理延遲的同時提升了性能,實現了在長時間上下文中的高效且穩健的影片理解。廣泛的評估顯示,STORM在多個長影片理解基準測試中達到了最先進的結果(在MLVU和LongVideoBench上提升了超過5%),同時在固定輸入幀數的情況下,計算成本降低了高達8倍,解碼延遲減少了2.4至2.9倍。項目頁面可在https://research.nvidia.com/labs/lpr/storm查看。
近期,語音對語音對話系統的進展利用大型語言模型(LLMs)實現多模態互動,但仍受制於微調需求、高計算開銷及文本語音不對齊等問題。現有的語音增強型LLMs常因修改LLM而降低對話質量,從而損害其語言能力。與此不同,我們提出了LLMVoX,這是一個輕量級、僅需3000萬參數、與LLM無關的自迴歸流式文本轉語音(TTS)系統,能在保持基礎LLM全部能力的同時,以低延遲生成高質量語音。相比語音增強型LLMs,我們的方法在保持相近延遲和UTMOS分數的基礎上,實現了顯著更低的詞錯誤率。通過多隊列令牌流系統將語音合成與LLM處理解耦,LLMVoX支持無縫、無限長度的對話。其即插即用設計也便於擴展至不同骨幹網絡的各種任務。此外,LLMVoX僅需數據集適應即可泛化至新語言,在阿拉伯語語音任務中達到了低字符錯誤率。我們還將LLMVoX與視覺語言模型集成,創建了一個具備語音、文本和視覺能力的全能模型,無需額外的多模態訓練。我們的代碼庫和項目頁面可在https://mbzuai-oryx.github.io/LLMVoX 獲取。
我們推出EgoLife項目,旨在開發一款以自我為中心的生活助手,通過AI驅動的可穿戴眼鏡來陪伴並提升個人效率。為奠定此助手的基礎,我們進行了一項全面的數據收集研究,六位參與者共同生活一週,持續記錄他們的日常活動——包括討論、購物、烹飪、社交和娛樂——使用AI眼鏡進行多模態自我中心視角視頻捕捉,並同步第三方視角視頻作為參考。這項努力產生了EgoLife數據集,這是一個包含300小時的自我中心、人際互動、多視角及多模態日常生活數據集,並附有詳盡的註釋。基於此數據集,我們引入了EgoLifeQA,一套長上下文、生活導向的問答任務集,旨在通過解決實際問題(如回憶過去相關事件、監控健康習慣、提供個性化建議)來提供有意義的日常生活輔助。針對關鍵技術挑戰——(1)開發適用於自我中心數據的魯棒視聽模型,(2)實現身份識別,(3)支持跨長時間信息的長上下文問答——我們介紹了EgoButler,一個整合了EgoGPT和EgoRAG的系統。EgoGPT是一個在自我中心數據集上訓練的全模態模型,在自我中心視頻理解上達到了最先進的性能。EgoRAG是一個基於檢索的組件,支持回答超長上下文問題。我們的實驗研究驗證了它們的工作機制,並揭示了關鍵因素和瓶頸,為未來改進提供了指導。通過公開我們的數據集、模型和基準測試,我們希望激發對自我中心AI助手的進一步研究。
隨著大型語言模型日益負責線上內容的生成,人們開始擔憂其反覆處理自身輸出所帶來的影響。本研究受到人類連鎖溝通中「傳話失真」效應的啟發,探討大型語言模型是否會通過迭代生成過程同樣造成信息失真。通過基於翻譯的實驗,我們發現失真會隨著時間累積,並受到語言選擇和鏈條複雜度的影響。雖然信息退化不可避免,但可以通過策略性的提示技術來緩解。這些發現為討論人工智慧中介信息傳播的長期效應提供了新的見解,並引發了關於迭代工作流程中大型語言模型生成內容可靠性的重要問題。
大型語言模型(LLMs)的推理能力評估容易因評估基準的數據暴露而被高估。我們引入了一個框架,用於生成語言推理問題,以減少記憶效應對模型性能估計的影響,並應用此框架開發了LINGOLY-TOO,這是一個具有挑戰性的語言推理評估基準。通過開發正字法模板,我們動態地模糊真實語言的書寫系統,以生成多種問題變體。這些變體保留了每個解決方案所需的推理步驟,同時降低了特定問題實例出現在模型訓練數據中的可能性。我們的實驗表明,包括OpenAI o1-preview和DeepSeem R1在內的前沿模型在處理高級推理時表現不佳。我們的分析還顯示,LLMs在相同問題的不同排列上表現出顯著的準確性差異,並且平均而言,在原始正字法出現的問題上表現更好。我們的研究結果突顯了LLMs在生成回應時的不透明性,並提供了證據表明,先前的數據暴露導致了對前沿模型推理能力的高估。
理解與推理非語音聲音及音樂對於人類與AI代理有效與環境互動至關重要。本文介紹了Audio Flamingo 2(AF2),這是一款具備先進音頻理解與推理能力的音頻-語言模型(ALM)。AF2整合了以下三大要素:(i) 定制的CLAP模型,(ii) 用於細粒度音頻推理的合成音頻問答數據,以及(iii) 多階段課程學習策略。AF2僅憑3B參數的小型語言模型便實現了頂尖性能,在超過20個基準測試中超越了大型開源及專有模型。此外,我們首次將音頻理解能力延伸至長音頻片段(30秒至5分鐘),並提出了LongAudio,這是一個用於訓練ALM在長音頻字幕生成與問答任務上的大型新穎數據集。在LongAudio上微調AF2,使其在我們提出的LongAudioBench上表現卓越,這是一個專家註釋的基準,用於評估ALM在長音頻理解能力上的表現。我們進行了廣泛的消融研究以驗證方法的有效性。項目網站:https://research.nvidia.com/labs/adlr/AF2/。
我們嚴格地建立了一個自然語言中的二元互信息尺度定律,該定律支配著長程依賴關係。我們展示的這一尺度定律,與傳統的兩點互信息不同且獨立地進行尺度變化,是理解長上下文語言建模的關鍵。利用這一尺度定律,我們提出了長上下文語言建模(L^2M)條件,該條件將模型有效建模長上下文長度的能力與其用於存儲過去信息的潛在狀態大小的尺度變化聯繫起來。我們的結果通過在變壓器和狀態空間模型上的實驗得到了驗證。這項工作建立了一個理論基礎,指導大型語言模型向更長上下文長度的發展。
我們推出了IFIR,這是首個專門用於評估專家領域中指令遵循信息檢索(IR)的綜合基準。IFIR包含2,426個高質量示例,涵蓋了金融、法律、醫療保健和科學文獻四個專業領域的八個子集。每個子集針對一個或多個特定領域的檢索任務,模擬了現實世界中定制指令至關重要的場景。IFIR通過引入不同複雜程度的指令,使得對指令遵循檢索能力的細緻分析成為可能。我們還提出了一種基於大語言模型(LLM)的新穎評估方法,以提供更精確和可靠的模型在遵循指令方面表現的評估。通過對15個前沿檢索模型(包括基於LLM的模型)進行廣泛實驗,我們的結果顯示,當前模型在有效遵循複雜、特定領域指令方面面臨顯著挑戰。我們進一步提供了深入分析以凸顯這些限制,為未來檢索器開發的進步提供了寶貴的見解。
Transformer已成為廣泛機器學習任務,特別是在大型語言模型(LLMs)中的實際架構標準。儘管其表現卓越,但在訓練深度Transformer網絡時仍存在挑戰,尤其是關於層歸一化的位置。雖然Pre-Norm結構因其更顯著的恆等路徑而便於訓練,但其性能往往不如Post-Norm。本文提出了一種簡單而有效的混合歸一化策略——HybridNorm,它結合了Pre-Norm和Post-Norm的優勢。具體而言,HybridNorm在注意力機制中採用QKV歸一化,並在每個Transformer塊的前饋網絡(FFN)中使用Post-Norm。這種設計不僅穩定了訓練,還提升了性能,尤其是在LLMs的背景下。在密集和稀疏架構中的全面實驗表明,HybridNorm始終優於Pre-Norm和Post-Norm方法,在各種基準測試中達到了最先進的結果。這些發現凸顯了HybridNorm作為一種更穩定、更有效的技術,在改進深度Transformer模型的訓練和性能方面的潛力。代碼將公開提供,詳見https://github.com/BryceZhuo/HybridNorm。
我們推出FuseChat-3.0,這是一套大型語言模型(LLMs),通過將異構源LLMs的優勢整合到更緊湊的目標LLMs中開發而成。我們的源模型包括強大的Gemma-2-27B-it、Mistral-Large-Instruct-2407、Qwen-2.5-72B-Instruct和Llama-3.1-70B-Instruct。對於目標模型,我們專注於三種廣泛使用的較小變體——Llama-3.1-8B-Instruct、Gemma-2-9B-it和Qwen-2.5-7B-Instruct——以及兩種超緊湊選項,Llama-3.2-3B-Instruct和Llama-3.2-1B-Instruct。為了充分利用這些源模型的多樣化能力,我們開發了一種專為各種任務和領域量身定制的數據構建協議。FuseChat-3.0的訓練管道包含兩個關鍵階段:(1)監督微調(SFT)以對齊目標和源模型的分佈,(2)直接偏好優化(DPO)以應用來自多個源LLMs的偏好來微調目標模型。最終的FuseChat-3.0模型在指令遵循、通用知識、數學和編碼等任務上表現出顯著的性能提升。如圖1所示,使用Llama-3.1-8B-Instruct作為目標模型,我們的融合方法在14個基準測試中平均提升了6.8分。此外,在指令遵循基準測試AlpacaEval-2和Arena-Hard上分別取得了37.1分和30.1分的顯著提升。我們的代碼、模型和數據集可在https://github.com/SLIT-AI/FuseChat-3.0獲取。
我們介紹了Pok\'eChamp,這是一款由大型語言模型(LLMs)驅動的極小極大代理,專為寶可夢對戰設計。基於一個適用於雙人競技遊戲的通用框架,Pok\'eChamp利用LLMs的通用能力來增強極小極大樹搜索。具體而言,LLMs取代了三個關鍵模塊:(1)玩家動作採樣,(2)對手建模,以及(3)價值函數估計,使代理能夠有效利用遊戲歷史和人類知識來縮小搜索空間並應對部分可觀測性。值得注意的是,我們的框架無需額外的LLM訓練。我們在流行的Gen 9 OU格式中評估了Pok\'eChamp。當使用GPT-4o驅動時,它對抗現有最佳基於LLM的機器人取得了76%的勝率,對抗最強的基於規則的機器人則達到了84%的勝率,展示了其卓越的性能。即使使用開源的80億參數Llama 3.1模型,Pok\'eChamp也持續超越之前最佳的基於LLM的機器人——由GPT-4o驅動的Pok\'ellmon,取得了64%的勝率。Pok\'eChamp在Pok\'emon Showdown在線梯隊中預計的Elo評分為1300-1500,使其躋身於人類玩家的前30%-10%。此外,這項工作編譯了最大的真實玩家寶可夢對戰數據集,包含超過300萬場對戰,其中包括超過50萬場高Elo對戰。基於此數據集,我們建立了一系列對戰基準和謎題,以評估特定的對戰技能。我們還提供了本地遊戲引擎的關鍵更新。我們希望這項工作能促進進一步研究,利用寶可夢對戰作為基準,將LLM技術與解決通用多智能體問題的博弈論算法相結合。視頻、代碼和數據集可在https://sites.google.com/view/pokechamp-llm獲取。
大型語言模型(LLM)中的幻覺問題對其在現實世界應用中的安全部署構成了重大挑戰。近期的方法利用LLM的潛在空間進行幻覺檢測,但這些嵌入主要優化於語言連貫性而非事實準確性,往往難以清晰區分真實與虛假內容。為此,我們提出了真實性分離向量(Truthfulness Separator Vector, TSV),這是一種輕量且靈活的引導向量,在推理過程中重塑LLM的表示空間,以增強真實與幻覺輸出之間的區分度,而無需改變模型參數。我們的兩階段框架首先在一小部分標註樣本上訓練TSV,形成緊湊且分離良好的簇。隨後,通過引入未標註的LLM生成數據擴展樣本集,採用基於最優運輸的算法進行偽標註,並結合基於置信度的過濾過程。大量實驗表明,TSV在極少標註數據下實現了最先進的性能,展現出跨數據集的強大泛化能力,為現實世界中的LLM應用提供了實用解決方案。
近期,文本到视频(T2V)生成领域的进展主要受到两种竞争范式的推动:自回归语言模型和扩散模型。然而,每种范式都有其固有的局限性:语言模型在视觉质量和错误累积方面表现欠佳,而扩散模型则缺乏语义理解和因果建模能力。在本研究中,我们提出了LanDiff,一种通过粗到细生成方式融合两种范式优势的混合框架。我们的架构引入了三项关键创新:(1)一种语义分词器,通过高效的语义压缩将3D视觉特征压缩为紧凑的1D离散表示,实现了高达14,000倍的压缩比;(2)一种语言模型,能够生成具有高级语义关系的语义标记;(3)一种流式扩散模型,将粗略语义精炼为高保真视频。实验表明,LanDiff作为一个50亿参数的模型,在VBench T2V基准测试中获得了85.43分,超越了当前最先进的开源模型Hunyuan Video(130亿参数)及其他商业模型如Sora、Keling和Hailuo。此外,我们的模型在长视频生成方面也达到了业界领先水平,超越了该领域的其他开源模型。我们的演示可在https://landiff.github.io/查看。
混合專家(Mixture-of-Experts, MoE)在保持計算效率的同時提升了模型性能,使其非常適合大規模應用。然而,現有MoE範式中的專家作為個體運作,因此缺乏高質量的專家互動。此外,它們尚未有效地擴展到注意力模塊,這限制了進一步的效率提升。為解決這些問題,我們提出了專家聯盟(Union-of-Experts, UoE),將Transformer分解為一組等價的專家,並在輸入數據和專家上實現動態路由。我們的方法通過三個關鍵創新推動了MoE設計:(1) 我們基於張量並行中的矩陣劃分,對MLP模塊和注意力模塊進行了等價的專家分解。(2) 我們開發了兩種路由範式:基於數據塊的選擇和專家選擇,以在不同層次上應用路由。(3) 我們設計了UoE模型的架構,包括選擇性多頭注意力(Selective Multi-Head Attention, SMHA)和MLP專家聯盟(Union-of-MLP-Experts, UoME)。(4) 我們開發了UoE路由和計算操作的並行實現,並基於硬件處理分析優化了效率。實驗表明,採用UoE的模型在多個圖像和自然語言任務中超越了全注意力模型、最先進的MoE和高效Transformer。源代碼可在https://github.com/YujiaoYang-work/UoE獲取。
服務大型語言模型(LLMs)的成本高昂。然而,訓練後的權重量化可以通過壓縮模型大小以適應有限記憶體並節省頻寬來加速,從而解決這一問題。由於並非所有權重維度都同等重要,這些方法通常依賴於敏感度指標,該指標反映了權重對損失函數的逐元素影響,並用於預處理原始權重以實現更好的量化。在本研究中,我們對敏感度指標的準確性進行了實證研究,發現現有的基於梯度和海森矩陣的指標非常不準確:它們低估了量化對損失函數的影響,誤差達數個數量級,這主要是由於局部二階近似(即泰勒公式中的梯度和海森項)的收斂半徑較小。為解決這一問題,我們提出了後量化積分(Post-quantization Integral, PQI),這是一種精確的指標,能夠以細粒度方式估計後驗敏感度。為了利用這一精確指標,我們進一步提出了ReQuant,這是一個簡單而強大的框架,主要由兩個密集與稀疏分離組件構成:自適應異常值選擇和逐步重要權重分離。結果顯示,ReQuant顯著提升了最先進的訓練後量化方法,在Llama 3.2 1B模型上使用QTIP時,困惑度提升了2.66。
推理時擴展技術對於近期模型如OpenAI o1和DeepSeek R1的成功至關重要。然而,許多用於訓練模型以實現推理時擴展的技術要求任務答案可被驗證,這限制了其在數學、編程和邏輯推理等領域的應用。我們從人類如何進行初次嘗試、向他人尋求詳細反饋並基於此類反饋在廣泛的開放性探索中改進的過程中獲得啟發。為此,我們收集數據並訓練專門的反饋與編輯模型,這些模型能夠在開放性通用任務中執行推理時擴展。在我們的設置中,一個模型生成初始回應,第二個模型提供反饋,第三個模型則利用這些反饋來編輯回應。我們展示,通過擴展初始回應草稿的數量、有效反饋和編輯回應,可以提升在Arena Hard基準上的表現,該基準對Chatbot Arena Elo具有強預測性。當擴展達到最佳狀態時,基於Llama 3家族70B模型的設置能夠在2025年3月5日達到Arena Hard上的最新技術水平,得分為92.7,超越OpenAI o1-preview-2024-09-12的90.4和DeepSeek R1的92.3。
大型語言模型(LLMs)在機器翻譯領域取得了顯著成就,展現出跨越多種語言的卓越性能。然而,翻譯腔——以過於直譯和不自然的翻譯為特徵——仍然是基於LLM的翻譯系統中持續存在的挑戰。儘管LLMs在大量自然語料上進行了預訓練,但它們仍會出現翻譯腔錯誤,並生成意料之外的不自然翻譯,這源於監督微調(SFT)過程中引入的偏差。在本研究中,我們系統地評估了LLM生成翻譯中翻譯腔的普遍性,並探討了其在監督訓練中的根源。我們提出了多種方法來減輕這些偏差,包括打磨黃金參考譯文和過濾不自然的訓練實例。實證評估表明,這些方法顯著減少了翻譯腔,同時提升了翻譯的自然度,這通過人工評估和自動指標得到了驗證。我們的研究結果強調了在訓練過程中進行調整以優化LLM翻譯輸出的必要性,為實現更流暢且符合目標語言習慣的翻譯鋪平了道路。我們在https://github.com/yafuly/LLM_Translationese上公開了數據和代碼。
高效解決貝葉斯逆問題仍然是一個重大挑戰,這源於後驗分佈的複雜性以及傳統抽樣方法的計算成本。給定一系列觀測數據和前向模型,我們希望恢復在觀測實驗數據條件下的參數分佈。我們展示,通過將條件流匹配(CFM)與基於變壓器的架構相結合,我們能夠高效地從這類分佈中抽樣,並適應可變數量的觀測條件。
雖然跨語言遷移對於當代語言模型的多語言能力至關重要,但其具體發生機制尚未得到充分理解。在本文中,我們探討了當單語言模型開始接受第二語言訓練時會發生什麼。具體而言,我們訓練了小型雙語模型,並控制了每種語言的數據量以及語言接觸的順序。為了尋找共享多語言表徵的證據,我們採用了結構啟動(structural priming)這一用於研究人類語法表徵的方法。我們首先複製了先前的跨語言結構啟動結果,並發現,在控制了訓練數據量和語言接觸後,不同語言對及其方向之間存在不對稱效應。我們認為,這種不對稱性可能為人類結構啟動效應的假設提供啟示。此外,我們還發現,對於相似度較低的語言對,結構啟動效應的穩健性較弱,這凸顯了跨語言遷移學習和共享表徵在處理類型學上多樣化語言時的潛在局限性。
軟體專案的蓬勃發展有賴於來自不同背景的個人參與和貢獻。然而,有毒的言論和負面的互動可能會阻礙貢獻者的參與和留存,並使新加入者感到疏離。主動的調節策略旨在通過處理偏離初衷的對話來防止毒性的發生。本研究旨在理解和預測導致GitHub上對話毒性化的對話偏離現象。 為了促進這項研究,我們整理了一個新穎的數據集,包含202個來自GitHub的有毒對話,並標註了偏離點,以及696個非毒性對話作為基準。基於此數據集,我們識別了有毒對話和偏離點的獨特特徵,包括語言標記如第二人稱代詞、否定詞語,以及苦澀挫敗和不耐煩的語氣,還有專案貢獻者與外部參與者之間對話動態的模式。 利用這些實證觀察,我們提出了一種主動調節方法,旨在自動檢測並處理潛在有害的對話,防止其升級。通過運用現代大型語言模型(LLMs),我們開發了一種對話軌跡摘要技術,捕捉討論的演變並識別偏離的早期跡象。我們的實驗表明,針對GitHub對話提供摘要的LLM提示在預測對話偏離方面達到了69%的F1分數,相較於一系列基準方法有顯著提升。