每日精選AI研究論文及翻譯
過程獎勵模型(PRMs)被視為在大型語言模型(LLMs)的數學推理中進行過程監督的一種有前途的方法,旨在識別並減輕推理過程中的中間錯誤。然而,有效PRMs的開發面臨著重大挑戰,特別是在數據標註和評估方法方面。通過廣泛的實驗,本文證明了通常使用的基於蒙特卡羅(MC)估計的數據合成對於PRMs通常產生較差的性能和泛化能力,相較於LLM作為評判者和人工標註方法。MC估計依賴於完成模型來評估當前步驟的正確性,導致步驟驗證不準確。此外,我們識別出傳統的最佳N(BoN)評估策略中對PRMs的潛在偏見:(1)不可靠的策略模型生成具有正確答案但有缺陷過程的回應,導致BoN的評估標準與PRM的過程驗證目標之間存在不一致。 (2)PRMs對此類回應的容忍導致BoN分數被誇大。 (3)現有的PRMs在最終答案步驟上有相當比例的最低分數,顯示了BoN優化的PRMs中從過程到結果為基礎評估的轉變。為應對這些挑戰,我們開發了一個共識過濾機制,有效地將MC估計與LLM作為評判者相結合,並提倡一個更全面的評估框架,結合回應級和步驟級指標。基於這些機制,我們在BoN評估和逐步錯誤識別任務中顯著提高了模型性能和數據效率。最後,我們發布了一個新的最先進的PRM,優於現有的開源替代方案,並為未來建立過程監督模型的研究提供實用指南。
將語言模型擴展以處理較長的輸入序列通常需要大型的鍵-值(KV)緩存,這導致推論過程中存在重大的內存開銷。在本文中,我們提出了張量乘積注意力(TPA),這是一種使用張量分解來緊湊表示查詢、鍵和值的新型注意力機制,顯著地縮小了推論時的KV緩存大小。通過將這些表示因子分解為上下文低秩組件(上下文分解),並與RoPE無縫集成,TPA實現了模型質量的提升以及內存效率。基於TPA,我們引入了Tensor ProducT ATTenTion Transformer(T6),這是一種用於序列建模的新模型架構。通過對語言建模任務的廣泛實證評估,我們展示了T6在各種指標上超越了標準Transformer基準模型,包括MHA、MQA、GQA和MLA,包括困惑度和一系列知名評估基準。值得注意的是,TPA的內存效率使其能夠在固定資源限制下處理更長的序列,解決了現代語言模型中的一個關鍵可擴展性挑戰。代碼可在https://github.com/tensorgi/T6找到。
視覺語言模型(VLMs)的發展受到大規模和多樣化的多模態數據集驅動。然而,通往通用生物醫學VLMs的進展受限於生物學和醫學領域缺乏注釋且可公開訪問的數據集。現有的努力受限於狹窄的領域,缺乏科學文獻中編碼的生物醫學知識的完整多樣性。為彌補這一差距,我們引入了BIOMEDICA,一個可擴展的開源框架,用於提取、標註和序列化PubMed Central開放訪問子集的全部內容,形成易於使用且可公開訪問的數據集。我們的框架生成了一個包含超過2400萬個獨特的圖像-文本對的全面存檔,來自超過600萬篇文章。同時提供元數據和專家指導的標註。我們通過發布BMCA-CLIP展示了我們資源的實用性和可訪問性,這是一套通過流式連續預訓練於BIOMEDICA數據集上的CLIP風格模型套件,無需在本地下載27 TB的數據。我們的模型平均在40個任務中實現了最先進的性能,跨越病理學、放射學、眼科學、皮膚科、外科學、分子生物學、寄生學和細胞生物學,以6.56%的平均改進(在皮膚科和眼科學中高達29.8%和17.5%),並實現更強大的圖像-文本檢索,同時使用的計算資源少了10倍。為了促進可重現性和協作,我們釋出了我們的代碼庫和數據集供更廣泛的研究社區使用。
自適應大型語言模型(LLMs)旨在解決傳統微調方法所帶來的挑戰,這些方法通常在處理多樣任務時需要大量計算資源且靜態性強。我們介紹了\implname,一個新穎的自適應框架,通過選擇性地調整其權重矩陣的單一組件,使LLMs能夠實時適應未知任務。在推論過程中,\implname採用兩過程機制:首先,一個調度系統識別任務屬性,然後使用強化學習訓練的任務特定“專家”向量被動態混合,以獲得針對輸入提示的目標行為。我們的方法在參數更少且效率更高的情況下勝過了常見方法,如LoRA。 \implname在不同的LLM架構和模態,包括視覺-語言任務中展現了多樣性。 \implname代表了一個重大飛躍,提供了一個可擴展、高效的解決方案,用於增強LLMs的適應性和任務特定性能,為真正動態、自組織的人工智能系統鋪平了道路。
最近大型語言模型(LLMs)和多模態語音文本模型的進步為無縫語音互動奠定了基礎,實現了實時、自然和類人對話。過去的語音互動模型可分為本地和對齊兩類。本地模型將語音和文本處理整合在一個框架中,但在處理不同序列長度和不足的預訓練等問題上遇到困難。對齊模型保留了文本LLM的能力,但通常受限於小數據集和對語音任務的狹窄關注。在本研究中,我們介紹了MinMo,一個具有約80億參數的多模態大型語言模型,用於實現無縫語音互動。我們解決了先前對齊多模態模型的主要限制。我們通過多個階段的語音轉文本對齊、文本轉語音對齊、語音對語音對齊和雙工互動對齊,在140萬小時的多樣語音數據和廣泛的語音任務上訓練MinMo。在多階段訓練後,MinMo在語音理解和生成的各種基準測試中實現了最先進的性能,同時保持了文本LLM的能力,並實現了全雙工對話,即用戶和系統之間的同時雙向通信。此外,我們提出了一種新穎且簡單的語音解碼器,優於先前的語音生成模型。MinMo的增強指令遵循能力支持基於用戶指令控制語音生成,包括情感、方言和說話速度等各種細微差異,並模仿特定聲音。對於MinMo,語音轉文本延遲約為100ms,全雙工延遲在理論上約為600ms,在實踐中約為800ms。MinMo項目網頁為https://funaudiollm.github.io/minmo,代碼和模型將很快發布。
最近的影片生成模型展示了在製作持續數秒的高品質影片片段方面的有希望結果。然而,這些模型在生成傳達清晰且資訊豐富事件的長序列方面面臨挑戰,限制了它們支持連貫敘事的能力。本文中,我們提出了一個大規模烹飪影片數據集,旨在推進烹飪領域的長篇敘事生成。我們使用最先進的視覺語言模型(VLMs)和影片生成模型分別驗證了我們提出的數據集在視覺保真度和文本標題準確性方面的質量。我們進一步引入了一個長篇敘事影片導演,以增強生成影片中的視覺和語義連貫性,並強調了對齊視覺嵌入以實現整體影片質量改善的作用。我們的方法展示了在生成視覺細節豐富且語義對齊的關鍵幀方面取得了顯著進展,這得益於在影片生成過程中整合文本和圖像嵌入的微調技術。項目頁面:https://videoauteur.github.io/
在我們先前對O1複製的研究基礎上(第1部分:旅程學習[Qin等,2024年]和第2部分:蒸餾[Huang等,2024年]),本研究探討了大型語言模型(LLMs)在醫學推理任務中推理時間縮放的潛力,範圍涵蓋從診斷決策到治療計劃。通過對醫學基準測試(MedQA、Medbullets和JAMA臨床挑戰)進行廣泛實驗,我們的研究揭示了幾個關鍵見解:(1)增加推理時間確實會提高性能。在一個僅有500個樣本的適度訓練集下,我們的模型實現了6%-11%的顯著性能改善。(2)任務複雜度與所需推理鏈的長度直接相關,這證實了對於具有挑戰性問題的延伸思考過程的必要性。(3)我們模型生成的不同診斷符合假設性演繹法則,通過評估證據,提出可能解釋患者症狀的潛在疾病列表,並系統地縮小這些可能性。這些發現展示了推理時間縮放與旅程學習在提升LLMs在現實世界臨床推理能力方面的潛在協同作用。
檢索增強生成(RAG)在開放領域問答任務中展現出卓越的表現。然而,傳統搜索引擎可能檢索到膚淺的內容,限制了LLM處理複雜、多層次信息的能力。為了解決這個問題,我們引入了WebWalkerQA,這是一個旨在評估LLM執行網頁遍歷能力的基準。它評估LLM遍歷網站子頁面系統提取高質量數據的能力。我們提出了WebWalker,這是一個模擬人類網頁導航的多智能體框架,通過探索-評論者範式。廣泛的實驗結果表明,WebWalkerQA具有挑戰性,並展示了RAG與WebWalker結合在一起的有效性,通過在現實場景中的水平和垂直整合。
大型語言模型(LLMs)展示了在各種任務上卓越的表現,然而它們的訓練仍然需要大量資源且容易受到訓練不穩定等關鍵挑戰的影響。這種不穩定的主要來源在於梯度和損失的突波,這些突波干擾了學習過程,通常導致昂貴的干預,如檢查點恢復和實驗重啟,進一步加劇了效率低下的問題。本文對LLM訓練期間觀察到的梯度突波進行了全面調查,揭示了它們在多個架構和數據集中的普遍存在。我們的分析顯示,這些突波可能比典型梯度大1000倍,嚴重惡化了模型的性能。為了解決這個問題,我們提出了一種新型優化器Spike-Aware Adam with Momentum Reset SPAM,通過動量重置和突波感知梯度截斷來對抗梯度突波。廣泛的實驗,包括預訓練和微調,表明SPAM在各種任務中持續優於Adam及其變體,包括(1)從60M到1B的LLM預訓練,(2)4位元LLM預訓練,(3)強化學習和(4)時間序列預測。此外,SPAM通過啟用稀疏動量實現了記憶效率訓練,僅維護和更新一部分動量項。在記憶約束條件下運行時,SPAM優於GaLore和Adam-Mini等最先進的記憶效率優化器。我們的工作強調了在LLM訓練中緩解梯度突波的重要性,並引入了一種有效的優化策略,提高了大規模訓練的穩定性和資源效率。代碼可在https://github.com/TianjinYellow/SPAM-Optimizer.git找到。
我們介紹了一個名為Uncommon Objects in 3D (uCO3D)的新物件中心數據集,用於3D深度學習和3D生成人工智慧。uCO3D是最大的公開可用的高分辨率物件影片集合,具有3D標註,確保全方位360度覆蓋。uCO3D比MVImgNet和CO3Dv2更加多樣化,涵蓋超過1,000個物件類別。由於對收集的影片和3D標註進行了廣泛的質量檢查,因此質量更高。與類似的數據集一樣,uCO3D包含了3D相機姿勢、深度圖和稀疏點雲的標註。此外,每個物件都配有標題和3D高斯斑點重建。我們在MVImgNet、CO3Dv2和uCO3D上訓練了幾個大型3D模型,並且使用後者獲得了優越的結果,表明uCO3D對於學習應用更為優越。
化學推理通常涉及複雜的多步驟過程,需要精確計算,即使是輕微的錯誤也可能導致連鎖失敗。此外,大型語言模型(LLMs)在處理特定領域的公式、準確執行推理步驟和有效整合代碼時遇到困難,尤其在處理化學推理任務時。為應對這些挑戰,我們提出了ChemAgent,這是一個旨在通過動態、自我更新的庫來提高LLMs性能的新框架。該庫通過將化學任務分解為子任務,將這些子任務編譯成結構化集合,以供未來查詢。然後,當遇到新問題時,ChemAgent從庫中檢索並精煉相關信息,我們稱之為記憶,促進有效的任務分解和解決方案的生成。我們的方法設計了三種記憶類型和一個增強庫的推理組件,使LLMs能夠通過經驗不斷改進。從SciBench的四個化學推理數據集的實驗結果顯示,ChemAgent實現了高達46%(GPT-4)的性能增益,明顯優於現有方法。我們的研究結果表明,在未來應用中存在巨大潛力,包括藥物發現和材料科學等任務。我們的代碼可在https://github.com/gersteinlab/chemagent 找到。
基礎模型依賴於大規模網路爬蟲數據集,這些數據集通常包含噪音數據、偏見和無關內容。現有的數據選擇技術通常使用人類啟發法、下游評估數據集或專門的評分模型,可能會忽略在訓練過程中樣本的效用。相反,我們提出了一種新方法,Mimic Score,這是一種數據質量指標,利用預訓練的參考模型作為指南來評估數據樣本對訓練新模型的用處。它依賴於新模型參數的梯度與指向權重空間中參考模型的向量之間的對齊。與這個方向不一致的樣本被認為是低價值的,可以被過濾掉。受Mimic分數的啟發,我們開發了Grad-Mimic,一個數據選擇框架,用於識別和優先處理有用的樣本,自動化選擇過程以創建有效的過濾器。從實證來看,使用Mimic分數指導模型訓練在六個圖像數據集上實現了一致的性能提升,並增強了CLIP模型的性能。此外,Mimic分數及其相關的過濾器改進了現有的過濾方法,並提供了對數據集質量的準確估計。