每日精選AI研究論文及翻譯
LLM 生成的推理步驟可能是不完整的,因為它們模仿了在預訓練數據中常見的日常交流中的邏輯跳躍:基本原理經常被留下隱含(未說明)。為了應對這一挑戰,我們引入了RATIONALYST,這是一個基於在龐大的基於理性標註的預訓練數據集上進行過程監督推理的模型。我們從規模龐大的未標記數據集(Pile)和一組具有最少人為干預的推理數據集中提取了 79k 個基本原理。這種針對推理的規模化預訓練使 RATIONALYST 能夠在各種推理任務中保持一致的泛化能力,包括數學、常識、科學和邏輯推理。從 LLaMa-3-8B 進行微調後,RATIONALYST 在 7 個代表性推理基準測試中將推理準確性平均提高了 3.9%。與 GPT-4 等規模明顯更大的驗證模型以及在匹配訓練集上進行微調的大小相似的模型相比,它還展示了更優異的性能。
各種視覺基礎模型具有獨特的優勢和劣勢,透過無需標籤的異質多教師知識蒸餾,即所謂的「凝聚模型」,可以改善這兩者。我們在這方面的研究基礎上,探討教師的激活統計數據對結果學生模型品質的影響,特別是損失函數的影響。我們探索了一套標準的統計正規化技術工具包,以更好地對齊不同分佈並評估其影響。此外,我們研究了對下游教師匹配指標的影響,這促使我們使用哈達瑪矩陣。通過這些矩陣,我們展示了有用的特性,展示了它們如何用於等向標準化,其中多變量分佈的每個維度都使用相同的比例進行標準化。我們將這種技術稱為「PHI標準化」(PHI-S),並通過實證證明,它在所研究的方法套件中產生了最佳的學生模型。
儘管大型語言模型在程式碼生成方面取得了重大進展,但生成程式碼的通過率往往受制於微妙的錯誤,常需要人工干預才能通過測試,尤其是對於複雜問題。現有基於LLM的調試系統將生成的程式視為單一單元,未能解決多個層級的錯誤,從低級語法錯誤到高級算法缺陷。本文介紹了多層級調試器(MGDebugger),透過在不同層級上孤立、識別和解決錯誤,實現了分層程式碼調試。MGDebugger將有問題的程式碼分解為子功能的層次樹結構,每個層次代表特定層級的錯誤。在調試過程中,它分析每個子功能並以自下而上的方式迭代解決錯誤。為了有效測試每個子功能,我們提出了一個LLM模擬的Python執行器,追蹤程式碼執行並跟蹤重要變數狀態以準確定位錯誤。大量實驗表明,MGDebugger優於現有的調試系統,在HumanEval中的準確性比種子生成提高了18.9%,在HumanEvalFix中的修復成功率達到了97.6%。此外,MGDebugger有效修復了不同類別和難度級別的錯誤,展示了其穩健性和有效性。
神經輻射場(NeRF)被廣泛應用於新視角合成,並已為三維物體檢測(3DOD)進行了調整,提供了一種有前途的通過視角合成表示進行3DOD的方法。然而,NeRF面臨著固有限制:(i)由於其隱式性質,對於3DOD的表徵能力有限,以及(ii)渲染速度緩慢。最近,三維高斯飛濺(3DGS)作為一種明確的三維表示出現,解決了這些限制。受到這些優勢的啟發,本文首次將3DGS引入3DOD,確定了兩個主要挑戰:(i)高斯斑點的模糊空間分佈:3DGS主要依賴於2D像素級監督,導致高斯斑點的三維空間分佈不清晰,對象和背景之間的區分不清,這妨礙了3DOD;(ii)過多的背景斑點:2D圖像通常包含眾多背景像素,導致密集重建的3DGS具有許多表示背景的噪聲高斯斑點,對檢測產生負面影響。為應對挑戰(i),我們利用3DGS重建源自2D圖像的事實,提出了一個優雅且高效的解決方案,通過將2D邊界引導納入其中,顯著增強了高斯斑點的空間分佈,使對象和其背景之間的區分更加清晰。為應對挑戰(ii),我們提出了一種使用2D框框的框焦點採樣策略,以在三維空間中生成對象概率分佈,實現在三維空間中的有效概率採樣,保留更多對象斑點並減少噪聲背景斑點。由於我們的設計,我們的3DGS-DET在ScanNet數據集上明顯優於SOTA NeRF-based方法NeRF-Det,[email protected]提高了+6.6,[email protected]提高了+8.1,在ARKITScenes數據集上[email protected]驚人提高了+31.5。
我們研究了語言模型(LLMs)在小學數學(GSM)問題解決能力的深度。為此,我們評估它們在現有數學應用問題對中的表現,其中第二個問題的答案取決於正確回答第一個問題。我們的研究發現大多數LLMs存在顯著的推理差距,即在解決組合問題和獨立解決每個問題之間的表現差異。這種差距在規模較小、成本更有效率且專注於數學的模型中更為明顯。此外,指導調整配方和代碼生成對LLM規模產生不同影響,而在GSM上進行微調可能導致任務過度擬合。我們的分析顯示,大的推理差距不是由於測試集泄漏,而是由於對額外內容的干擾和第二跳推理不足。總的來說,儘管它們在標準基準測試中的表現,LLMs在推理能力上存在系統性差異。
在現實世界的應用中,文字豐富的圖像,其中文字作為主要的視覺元素,引導整體理解,是普遍存在的,例如演示幻燈片、掃描文件和網頁快照。涉及多個文字豐富圖像的任務尤其具有挑戰性,因為這些任務不僅需要理解單個圖像的內容,還需要推理跨多個視覺輸入的相互關係和邏輯流。儘管這些情景的重要性,但目前的多模式大型語言模型(MLLMs)在處理此類任務時遇到了兩個關鍵挑戰:(1)缺乏針對文字豐富多圖像情景的高質量指導調整數據集,以及(2)在圖像分辨率和視覺特徵序列長度之間難以平衡。為應對這些挑戰,我們提出\OurMethod,這是一個專為處理涉及多個文字豐富圖像的視覺-語言任務而設計的MLLM。首先,我們精心策劃了約一百萬個高質量的多模式指導調整數據,針對文字豐富、多圖像情景進行了定制。其次,我們開發了一個自適應高分辨率多圖像編碼模塊,根據輸入圖像的原始長寬比和分辨率動態優化視覺序列長度的分配。在廣泛的基準測試中進行的實驗表明,我們的模型在文字豐富、多圖像評估方面具有優越的能力,並在一般領域評估中表現出競爭力。
獎勵模型對於使模型遵循指示至關重要,通常根據兩種流行範式之一進行訓練:Bradley-Terry風格或迴歸風格。然而,目前缺乏證據表明其中一種方法在適當匹配數據時優於另一種。主要原因是這些方法需要以不同(但不相容)格式收集的數據,這意味著現有公共數據集中並不存在適當匹配的數據。為解決此問題,我們在HelpSteer2數據集中釋出偏好標註(設計用於Bradley-Terry訓練),以補充現有評分(設計用於迴歸風格訓練)。為提高數據可解釋性,偏好標註附帶人類撰寫的理由。利用這些數據,我們進行了首次對Bradley-Terry和迴歸模型進行適當匹配數據的直接比較。基於從這種比較中獲得的見解,我們提出了一種結合Bradley-Terry和迴歸獎勵建模的新方法。通過此方法調整的Llama-3.1-70B-Instruct模型在RewardBench上得分94.1,截至2024年10月1日,在140多個獎勵模型中名列前茅。我們還展示了此獎勵模型在RLHF中將模型對齊以遵循指示的有效性。我們以CC-BY-4.0許可證開源此數據集,網址為https://huggingface.co/datasets/nvidia/HelpSteer2,並公開釋出經過訓練的獎勵模型,網址為https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward。
我們透過對學習的 A 和 B 矩陣的不對稱分析,探討了在聯邦學習中 LoRA 的情況。在這個過程中,我們發現 A 矩陣負責學習一般知識,而 B 矩陣則專注於捕捉客戶特定知識。基於這一發現,我們提出了Federated Share-A Low-Rank Adaptation(FedSA-LoRA),該方法採用兩個低秩可訓練的矩陣 A 和 B 來建模權重更新,但只有 A 矩陣與伺服器共享進行聚合。此外,我們深入研究了在其他 LoRA 變體(如 rsLoRA 和 VeRA)中學習的 A 和 B 矩陣之間的關係,揭示了一致的模式。因此,我們將我們的 FedSA-LoRA 方法擴展到這些 LoRA 變體,得到了 FedSA-rsLoRA 和 FedSA-VeRA。通過這種方式,我們建立了一個將 LoRA 與 FL 整合的通用範式,為未來在後續 LoRA 變體與 FL 結合的工作提供指導。在自然語言理解和生成任務上的大量實驗結果證明了所提方法的有效性。
從簡單的單一模型到結合多個專業組件的複雜工作流程,文字轉圖像生成的實際應用已經有所演變。儘管基於工作流程的方法可以提高圖像質量,但要打造有效的工作流程需要相當的專業知識,因為有大量可用的組件、它們之間複雜的相互依賴性,以及它們對生成提示的依賴。在這裡,我們介紹了一個新的任務,即提示自適應工作流程生成,其目標是自動為每個用戶提示定制工作流程。我們提出了兩種基於LLM的方法來應對這個任務:一種是基於調整的方法,從用戶偏好數據中學習,另一種是無需訓練的方法,利用LLM來選擇現有的流程。與單一模型或通用的、與提示無關的工作流程相比,這兩種方法都能提高圖像質量。我們的工作表明,基於提示的流程預測為改善文字轉圖像生成質量開辟了一條新途徑,與該領域中現有的研究方向相輔相成。
機器翻譯(MT)評估中神經度量標準因其與人類判斷的優越相關性而日益突出,相較於傳統詞彙度量標準。研究人員因此通過質量資訊解碼策略利用神經度量標準,取得比基於可能性的方法更好的結果。隨著大型語言模型(LLMs)的興起,基於偏好的對齊技術因其通過質量估算器誘導的偏好直接優化模型權重以增強翻譯質量而受到關注。本研究聚焦於對比偏好優化(CPO),並進行廣泛實驗以評估基於偏好的對齊對翻譯質量的影響。我們的研究結果顯示,雖然在高質量數據上,CPO在對齊度量方面一貫優於監督微調(SFT),但可能導致在下游評估度量之間的不穩定性,尤其是神經和詞彙度量標準之間。此外,我們證明僅依賴基本模型生成候選翻譯可達到與使用多個外部系統相當的性能,同時確保在下游度量方面更好的一致性。
隨著基礎模型(FMs)的崛起,以及針對其風險和影響進行監管的努力,開源模型引起了極大的興趣。然而,現有的語音基礎模型(SFMs)並未完全符合開源原則,即使聲稱如此,因為目前沒有任何一個現有的SFMs在開源條款下公開提供模型權重、代碼和訓練數據。在這項工作中,我們著手填補這一空白,專注於歐盟(EU)的24種官方語言。我們通過調查自動語音識別數據集和開源合規許可的未標記語音語料庫,共計收集了950,000小時的適當訓練數據。此外,我們釋出了441,000小時未標記數據的自動轉錄,採用寬鬆的CC-BY許可,從而促進了針對歐盟語言的開源SFMs的創建。
儘管大型語言模型(LLMs)展現出在理解複雜查詢和執行複雜任務方面的卓越能力,但它們的泛化能力常常與記憶緊密相關,需要更精確的評估。為應對這一挑戰,我們引入了Scylla,一個動態評估框架,定量衡量LLMs的泛化能力。Scylla通過對模型在分佈內(ID)和分佈外(OOD)數據上的表現進行評估,涵蓋了20個任務,跨越5個不同複雜度級別,以解開泛化與記憶的糾纏。通過大量實驗,我們揭示了任務複雜度與ID和OOD數據之間性能差距之間的非單調關係,我們稱之為泛化谷。具體而言,這一現象揭示了一個關鍵閾值 - 稱為臨界複雜度 - 在此閾值上,非泛化行為的依賴達到高峰,標誌著LLMs泛化能力的上限。隨著模型大小的增加,臨界複雜度向著更高級別的任務複雜度轉移,表明較大的模型可以在過度依賴記憶之前處理更複雜的推理任務。利用Scylla和臨界複雜度的概念,我們對28個LLMs進行基準測試,包括開源模型如LLaMA和Qwen家族,以及封閉源模型如Claude和GPT,提供更穩健的評估,並建立對LLMs泛化能力的更清晰理解。
建模人類偏好對於對齊基礎模型與人類價值觀至關重要。傳統的獎勵建模方法,如布拉德利-特裡(BT)獎勵模型,在表達能力方面存在不足,特別是在處理不傳遞偏好時。儘管監督對偶偏好模型(PairPM)可以表達一般偏好,但它們的實施非常特定,無法保證比較對的一致偏好概率。此外,由於在比較多個回應時具有二次查詢複雜度,它們會導致高計算成本。在本文中,我們介紹了偏好表示學習,這是一種將回應嵌入潛在空間以有效捕捉複雜偏好結構的方法,實現了線性查詢複雜度。此外,我們提出了基於偏好分數的通用偏好優化(GPO),它從人類反饋中推廣了基於獎勵的強化學習。實驗結果顯示,我們的通用偏好表示模型(GPM)在RewardBench基準測試中優於BT獎勵模型,優勢高達5.6%,並有效地建模了循環偏好,其中任何BT獎勵模型都表現得像隨機猜測。此外,在通過使用GPO和我們的通用偏好模型對語言模型進行後訓練後,對AlpacaEval2.0和MT-Bench等下游任務的評估顯示出高達9.3%的顯著性能改進。這些發現表明,我們的方法可能增強基礎模型與微妙人類價值觀的對齊。代碼可在https://github.com/general-preference/general-preference-model找到。
大型語言模型展示了作為下一代資訊存取引擎的重要潛力。然而,它們的可靠性受到幻覺和生成非事實內容的問題的影響。這在長篇回應中尤為棘手,因為評估和確保事實準確性是復雜的。本文通過提出FactAlign來填補這一空白,這是一個旨在增強LLM長篇回應事實性的新型對齊框架,同時保持其幫助性。我們引入fKTO,這是一種細粒度、句級對齊算法,擴展了Kahneman-Tversky Optimization (KTO) 對齊方法。FactAlign利用最近的自動事實性評估進展,利用細粒度的事實性評估來引導對齊過程。我們在開放領域提示和尋求信息的問題上進行的實驗表明,FactAlign顯著提高了LLM回應的事實準確性,同時也提高了其幫助性。進一步的分析表明,FactAlign能夠訓練LLM提供更多信息,同時不失事實精度,從而提高事實F1分數。我們的源代碼、數據集和訓練模型可在https://github.com/MiuLab/FactAlign 公開獲得。
我們提出了精確體積橢圓渲染(EVER),這是一種用於實時可微的僅發射體積渲染的方法。與最近基於光柵化的3D高斯擴散(3DGS)方法不同,我們基於基元的表示允許進行精確的體積渲染,而不是對3D高斯看板進行α合成。因此,與3DGS不同,我們的公式不會出現跳躍異常和視角依賴密度,但仍然在NVIDIA RTX4090上實現720p下約30 FPS的幀速率。由於我們的方法建立在光線追踪之上,它可以實現像散焦模糊和相機失真(例如來自魚眼相機)這樣的效果,這些效果在光柵化中難以實現。我們展示了我們的方法比3DGS更準確,並且在視角一致渲染方面的後續工作上更少出現混合問題,特別是在Zip-NeRF數據集中具有挑戰性的大型場景中,它在實時技術中實現了最銳利的結果。
近年來,文本轉語音(TTS)技術的進步使語音更加自然和表達豐富,但缺乏讓用戶選擇情感和控制強度的選項。我們提出 EmoKnob,一個框架,允許在語音合成中細粒度地控制情感,並使用少量展示性任意情感的示例。我們的框架利用最近基礎語音克隆模型的進步所實現的豐富語者表示空間。基於我們情感控制框架的少量展示能力,我們提出兩種方法來應用情感控制於由開放式文本描述的情感,實現一個直觀的界面,用於控制多樣微妙情感的陣列。為了促進更系統化的情感語音合成領域,我們引入了一組旨在嚴格評估情感控制框架的忠實度和可識別性的評估指標。通過客觀和主觀評估,我們展示了我們的情感控制框架有效地將情感嵌入語音中,並超越了商業TTS服務的情感表達能力。
最近在視頻大型語言模型(Video-LLMs)方面的進展展示了它們在通用視頻理解方面的巨大潛力。為了驗證這些模型的重要性,已提出了許多基準來診斷它們在不同場景中的能力。然而,現有的基準僅通過視頻級問答來評估模型,缺乏細粒度事件級別評估和任務多樣性。為彌補這一空白,我們引入了 E.T. Bench(事件級別和時間敏感視頻理解基準),這是一個大規模且高質量的基準,用於開放式事件級別視頻理解。E.T. Bench分為3級任務分類,包含12個任務下的7.3K個樣本,涵蓋8個領域的7K個視頻(總長度251.4小時),提供全面的評估。我們在我們的基準上對8個圖像-LLMs和12個視頻-LLMs進行了廣泛評估,結果顯示,目前最先進的粗細級(視頻級)理解模型難以解決我們的細粒度任務,例如在視頻中定位感興趣的事件,這主要是由於短視頻上下文長度、不當的時間表示和缺乏多事件訓練數據。針對這些問題,我們進一步提出了一個強大的基線模型,E.T. Chat,以及一個針對細粒度事件級別理解的指導調整數據集 E.T. Instruct 164K。我們簡單而有效的解決方案在多種場景中展現出卓越的性能。
大型語言模型擅長於創造性生成,但仍然在幻覺和偏見問題上遇到困難。檢索增強生成(RAG)提供了一個框架,可以將大型語言模型(LLMs)的回應基於準確和最新資訊,但仍然引發了偏見問題:應該選擇哪些來源來包含在上下文中?它們的重要性應該如何加權?在本文中,我們研究了跨語言RAG的挑戰,並提出了一個數據集,以研究現有系統在回答有關地緣政治爭端的查詢時的韌性,這些爭端存在於語言、文化和政治界線的交叉點。我們的數據集來自包含與給定查詢相關信息的維基百科頁面,我們研究了包含額外上下文的影響,以及這種上下文在語言和來源方面的組成對LLM回應的影響。我們的結果顯示,現有的RAG系統在跨語言使用案例上仍然面臨挑戰,當它們被提供多種語言的競爭性信息時,缺乏一致性。我們提出案例研究來說明這些問題,並概述未來研究應採取的步驟來應對這些挑戰。我們將我們的數據集和代碼公開提供在https://github.com/manestay/bordIRlines。
視覺語言模型(VLMs)對於上下文理解視覺和文本信息至關重要。然而,它們對敵對操縱輸入的脆弱性帶來重大風險,導致輸出受損,並引發對VLM集成應用可靠性的擔憂。因此,檢測這些惡意提示對於維護對VLM生成的信任至關重要。在開發保護提示分類器時面臨的一個主要挑戰是缺乏大量標記的良性和惡意數據。為解決這個問題,我們引入了VLMGuard,一種新型學習框架,利用野外未標記的用戶提示進行惡意提示檢測。這些未標記的提示在VLM部署在開放世界時自然生成,包含良性和惡意信息。為了利用這些未標記的數據,我們提出了一種自動惡意估計分數,以區分這些未標記混合中的良性和惡意樣本,從而實現在其之上訓練二元提示分類器。值得注意的是,我們的框架不需要額外的人工標註,為現實應用提供了強大的靈活性和實用性。廣泛的實驗表明,VLMGuard實現了優越的檢測結果,明顯優於最先進的方法。免責聲明:本文可能包含冒犯性示例;請慎重閱讀。
擴散Transformer(DiTs)因在生成任務中具有傑出的可擴展性和非凡性能而備受推崇。然而,其相當大的推論成本阻礙了實際部署。特徵快取機制涉及跨時間步存儲和檢索冗餘計算,有望減少擴散模型中每步推論時間。大多數現有的DiT快取方法是手動設計的。儘管基於學習的方法試圖自適應地優化策略,但由於訓練和推論之間存在差異,這既影響了性能又影響了加速比。通過詳細分析,我們指出這些差異主要源於兩個方面:(1)先前時間步忽略,即訓練忽略了在較早時間步中快取使用的影響,以及(2)目標不匹配,即訓練目標(對齊每個時間步中預測的噪聲)偏離了推論目標(生成高質量圖像)。為了減輕這些差異,我們提出了HarmoniCa,這是一種新方法,它通過建立基於逐步去噪訓練(SDT)和圖像誤差代理引導目標(IEPO)的新型基於學習的快取框架,使訓練和推論協調一致。與傳統的訓練範式相比,新提出的SDT保持了去噪過程的連續性,使模型能夠在訓練期間利用先前時間步的信息,類似於推論期間的操作方式。此外,我們設計了IEPO,它集成了一個有效的代理機制來近似由重複使用快取特徵引起的最終圖像誤差。因此,IEPO有助於平衡最終圖像質量和快取利用率,解決了僅考慮每個時間步預測輸出的快取使用影響的訓練問題。
在讓自主機器人採取行動的努力中,任務規劃是一個重大挑戰,需要將高層次任務描述轉化為長期行動序列。儘管語言模型代理近年來取得了進展,但它們仍然容易出現規劃錯誤,並且在規劃能力方面存在限制。為了解決機器人規劃中的這些限制,我們提倡一種自我完善方案,通過反覆改進草擬計劃直到達到平衡。值得注意的是,這個過程可以從分析角度進行端對端優化,無需策劃額外的驗證器或獎勵模型,使我們能夠以簡單的監督學習方式訓練自我完善的規劃器。同時,我們設計了一種嵌套平衡序列建模程序,用於高效的閉環規劃,並整合了來自環境(或內部世界模型)的有用反饋。我們的方法在VirtualHome-Env基準測試上進行了評估,展現出更好的推理計算擴展性。代碼可在https://github.com/Singularity0104/equilibrium-planner找到。
深度學習優化器通常是透過凸和近似二階理論的結合來激發動力。我們選擇了三種這樣的方法——Adam、Shampoo和Prodigy——並且認為每種方法實際上可以被理解為一種沒有凸性假設的一階方法。事實上,在關閉指數移動平均後,每種方法等同於在特定範數下的最陡下降。通過擴展這一觀察,我們為訓練算法開創了一個新的設計空間。應該根據張量在網絡中的作用,為不同的運算符範數分配不同的值。例如,雖然線性和嵌入層可能具有相同的權重空間R^{m乘以n},但這些層扮演不同的角色,應該分配不同的範數。我們希望這種精心測量神經結構的想法可能會導致更穩定、可擴展且更快速的訓練。
處理長輸入內容對於大型語言模型(LLMs)仍然是一個重要挑戰,特別是在資源受限的環境中,如移動設備。我們的工作旨在通過引入InfiniPot來解決這一限制,這是一個新型KV快取控制框架,旨在使預訓練的LLMs能夠在固定內存限制下有效地管理廣泛序列,而無需額外的訓練。InfiniPot利用持續上下文蒸餾(CCD),這是一個迭代過程,通過新穎的重要性指標壓縮並保留必要信息,有效地保持關鍵數據,即使沒有未來上下文的訪問。我們的全面評估表明,InfiniPot在各種自然語言處理任務中明顯優於針對長上下文進行訓練的模型,確立了其效力和多功能性。這項工作代表了使LLMs應用於更廣泛實際情境的重大進展。
在移動聲源條件下系統評估語音分離和增強模型通常需要包含各種情境的大量數據。然而,現實世界的數據集通常包含的數據不足以滿足模型的訓練和評估需求。儘管合成數據集提供了更大量的數據,但它們的聲學模擬缺乏真實感。因此,現實世界和合成數據集都無法有效滿足實際需求。為了應對這些問題,我們介紹了SonicSim,一個合成工具包,旨在為移動聲源生成高度可定制的數據。SonicSim基於具有多級調整功能的具體化AI模擬平台Habitat-sim開發,包括場景級、麥克風級和聲源級,從而生成更多樣化的合成數據。利用SonicSim,我們構建了一個移動聲源基準數據集SonicSet,使用了Librispeech、Freesound數據集50k(FSD50K)和Free Music Archive(FMA),以及Matterport3D的90個場景來評估語音分離和增強模型。此外,為了驗證合成數據與現實世界數據之間的差異,我們隨機選取了SonicSet驗證集中5小時無混響的原始數據,錄製了一個現實世界的語音分離數據集,然後與相應的合成數據集進行比較。同樣地,我們利用了現實世界的語音增強數據集RealMAN來驗證其他合成數據集和SonicSet數據集之間的聲學差距。結果表明,SonicSim生成的合成數據能夠有效地推廣到現實世界的情境。演示和代碼可在https://cslikai.cn/SonicSim/公開獲取。