每日精選AI研究論文及翻譯
為了增強大型語言模型(LLMs)的推理能力,先前的研究主要集中在特定提示技術,如少樣本或零樣本的思維鏈提示(CoT)。這些方法雖然有效,但通常需要大量手動提示工程。我們的研究採用了一種新方法,提出了一個問題:LLMs是否可以在沒有提示的情況下有效地進行推理?我們的研究發現,有趣的是,通過簡單地改變解碼過程,可以從預訓練的LLMs中引出CoT推理路徑。我們不再使用傳統的貪婪解碼,而是研究了前k個替代標記,發現這些序列中經常存在CoT路徑。這種方法不僅可以避開提示的混淆因素,還可以讓我們評估LLMs的內在推理能力。此外,我們觀察到,在解碼路徑中存在CoT與模型解碼答案的信心之間存在較高的相關性。這種信心指標有效地區分了CoT和非CoT路徑。對各種推理基準的廣泛實證研究表明,所提出的CoT解碼明顯優於標準的貪婪解碼。
所有基於文本的語言問題都可以歸納為生成或嵌入其中。目前的模型只在其中一個方面表現良好。我們引入了生成表徵指導調整(GRIT),通過指導區分它們,訓練一個大型語言模型來處理生成和嵌入任務。與其他開放模型相比,我們的結果 GritLM 7B 在大型文本嵌入基準測試(MTEB)上創下了新的最先進水平,並在各種生成任務中優於其大小的所有模型。通過進一步擴展,GritLM 8x7B 在仍然是最佳嵌入模型之一的情況下,優於我們嘗試過的所有開放生成語言模型。值得注意的是,我們發現 GRIT 與僅在生成或嵌入數據上進行訓練的效果相當,因此我們可以在不損失性能的情況下將兩者統一起來。通過 GRIT 進行統一,可以加快對於長文檔的檢索增強生成(RAG)速度超過 60%,因為不再需要獨立的檢索和生成模型。模型、代碼等均可在 https://github.com/ContextualAI/gritlm 免費獲取。
大型語言模型(LLMs)的訓練成本高昂。本文研究了對於預訓練LLMs而言具有高效率的方法,即旨在優化模型品質和訓練資源/數據消耗的Pareto前緣的數據節約方法。我們試圖了解與基於(i)昂貴的數據質量估算和(ii)在特徵空間中最大化覆蓋率和多樣性度量相關的權衡。我們的第一種技術Ask-LLM,利用調整指令LLMs的零-shot推理能力來直接評估訓練示例的質量。為了達到覆蓋率,我們提出了密度抽樣,該方法對數據分佈進行建模以選擇多樣樣本。在我們對19種取樣器進行比較的過程中,涉及數百個評估任務和預訓練運行,我們發現Ask-LLM和密度是各自類別中最佳的方法。覆蓋率抽樣可以恢復完整數據的性能,而在Ask-LLM數據上訓練的模型在拒絕原始數據集的90%時仍然持續優於完整數據訓練,並且收斂速度提高了70%。
目前的大型語言模型(LLMs)不僅受限於最大上下文長度,也無法穩健地處理長輸入。為了應對這些限制,我們提出了 ReadAgent,一個在實驗中將有效上下文長度提高了 20 倍的LLM代理系統。受到人類互動閱讀長文檔的啟發,我們將ReadAgent實現為一個簡單的提示系統,利用LLMs的高級語言能力來(1)決定將哪些內容存儲在一個記憶片段中,(2)將這些記憶片段壓縮成稱為要義記憶的短期記憶,以及(3)在需要提醒自己相關細節以完成任務時,採取查找原始文本中段落的行動。我們使用檢索方法對ReadAgent進行評估,使用原始的長上下文以及使用要義記憶。這些評估是在三個長文檔閱讀理解任務上進行的:QuALITY、NarrativeQA和QMSum。ReadAgent在所有三個任務上均優於基準線,同時將有效上下文窗口擴展了3-20倍。
最近的研究表明,合成生成的資料集對於訓練大型語言模型(LLMs)具有巨大潛力,特別是用於獲取特定技能。目前大規模數學教學調整資料集,如MetaMathQA(Yu等,2024年)和MAmmoTH(Yue等,2024年),是使用具有商業限制許可的封閉源LLMs的輸出構建而成。限制在這些資料生成流程中使用開源LLMs的一個關鍵原因是,最佳封閉源LLMs(如GPT-4)的數學技能與最佳開源LLMs之間存在較大差距。基於最近在開源LLMs中的進展,我們提出了提示新穎性和一些粗暴擴展,我們構建了OpenMathInstruct-1,一個包含180萬問題-解決方案對的數學教學調整資料集。該資料集是通過使用最近釋出並採用寬鬆許可的Mixtral模型,為GSM8K和MATH兩個流行的數學推理基準合成代碼解釋器解決方案而構建的。我們的最佳模型OpenMath-CodeLlama-70B,在OpenMathInstruct-1的子集上訓練,GSM8K得分為84.6%,MATH得分為50.7%,與最佳gpt-distilled模型相競爭。我們在商業寬鬆許可下釋出我們的代碼、模型和OpenMathInstruct-1資料集。
在生成人工智慧(GenAI)領域中,微調擴散模型仍然是一個未被充分探索的前沿,特別是與微調大型語言模型(LLMs)取得的顯著進展相比。儘管頂尖的擴散模型,如穩定擴散(SD)和SDXL,依賴監督式微調,但它們的性能在看過一定量的數據後不可避免地會達到瓶頸。最近,強化學習(RL)已被用於使用人類偏好數據微調擴散模型,但每個文本提示至少需要兩幅圖像(“贏家”和“輸家”圖像)。在本文中,我們介紹了一種名為自我對弈微調擴散模型(SPIN-Diffusion)的創新技術,其中擴散模型與其早期版本進行競爭,促進一個迭代的自我改進過程。我們的方法提供了一種替代傳統監督式微調和RL策略的方法,顯著提高了模型性能和對齊性。我們在Pick-a-Pic數據集上的實驗顯示,SPIN-Diffusion在人類偏好對齊和視覺吸引力方面優於現有的監督式微調方法,即從第一次迭代開始。到第二次迭代時,它在所有指標上超過了基於RLHF的方法的性能,並且使用更少的數據就取得了這些結果。
我們研究了持續預訓練技術,以將語言模型的上下文長度擴展至128K,並專注於數據工程。我們假設長篇上下文建模,特別是能夠利用任意輸入位置的資訊的能力,大部分已經通過大規模預訓練獲得,並且這種能力可以通過在適當的數據混合上進行輕量級持續預訓練,輕鬆地擴展到比訓練過程中看到的範圍更長得多的上下文(例如,從4K到128K)。我們研究了持續預訓練的數據的數量和質量:(1)對於數量,我們表明5億至50億標記足以使模型能夠檢索128K上下文中的任何信息;(2)對於質量,我們的結果同樣強調領域平衡和長度上採樣。具體而言,我們發現,對於某些領域(如圖書)的長數據進行天真的上採樣,這是現有工作的常見做法,會導致次優異的性能,而平衡的領域混合則至關重要。我們證明,對這些數據的10億至50億標記進行完整模型的持續預訓練是將語言模型的上下文長度擴展至128K的一種有效且負擔得起的策略。我們的方法優於強大的開源長篇上下文模型,並將差距拉近到像GPT-4 128K這樣的前沿模型。
大型語言模型(LLMs)通常分為兩個階段進行訓練:在大規模互聯網數據集上進行預訓練,以及為下游任務進行微調。考慮到預訓練的計算需求較高,直覺上可以假設微調對模型添加的新信息較少,因此更易壓縮。我們通過將微調模型的權重分解為其預訓練組件和額外的增量來探索這一假設。我們引入了一種簡單的方法,BitDelta,成功地將這個增量量化為1位元,而不影響性能。這一有趣的發現不僅突顯了微調過程中添加的信息可能存在的冗餘性,還對微調模型的多租戶服務和多租戶存儲產生了重要影響。通過使用單個高精度基礎模型和多個1位元增量,BitDelta大幅降低了GPU內存需求超過10倍,這也可以轉化為多租戶環境中生成延遲的提升。我們通過在Llama-2和Mistral模型系列以及多達70B參數的模型上進行實驗,展示了在所有測試設置中性能幾乎沒有下降的情況,從而驗證了BitDelta。
最近,在圖像領域中,使用大型預訓練模型以零樣本方式編輯信號已經取得了快速進展。然而,這股浪潮尚未觸及音頻領域。本文探討了兩種用於音頻信號的零樣本編輯技術,這些技術利用了預先訓練擴散模型上的DDPM反演。第一種技術源自圖像領域,允許基於文本進行編輯。第二種是一種新穎的方法,用於發現沒有監督的語義有意義的編輯方向。當應用於音樂信號時,這種方法展示了一系列音樂上有趣的修改,從控制特定樂器的參與到對旋律的即興演奏。示例可在我們的示例頁面 https://hilamanor.github.io/AudioEditing/ 找到,代碼可在 https://github.com/hilamanor/AudioEditing/ 找到。
在3D高斯飛濺技術的進展顯著加快了3D重建和生成的速度。然而,這可能需要大量的高斯分布,這會造成相當大的記憶體占用。本文介紹了GES(廣義指數飛濺),這是一種新穎的表示法,採用廣義指數函數(GEF)來建模3D場景,需要更少的粒子來表示場景,因此在效率上顯著優於高斯飛濺方法,並具有可插拔替換高斯工具的能力。GES在理論和實證上在有原則的1D設置和現實的3D場景中得到驗證。 顯示它能更準確地表示具有銳利邊緣的信號,這對於高斯分布來說通常是具有困難的,因為它們具有固有的低通特性。我們的實證分析表明,GEF在擬合自然發生的信號(例如方形、三角形和抛物線信號)方面優於高斯分布,從而減少了高斯飛濺的記憶體占用量增加的需求。通過頻率調製損失的幫助,GES在新視角合成基準測試中實現了競爭性的性能,同時只需要不到高斯飛濺的一半記憶體存儲空間,並將渲染速度提高了多達39%。代碼可在項目網站https://abdullahamdi.com/ges 上獲得。
文本到圖像(T2I)個性化的目標是將擴散模型定制為用戶提供的參考概念,生成與目標提示對齊的概念的多樣圖像。傳統方法使用獨特的文本嵌入來表示參考概念,往往無法準確模仿參考的外觀。為了解決這個問題,一個解決方案可能是將參考圖像明確條件化到目標去噪過程中,這被稱為鍵值替換。然而,先前的工作受限於局部編輯,因為它們破壞了預訓練T2I模型的結構路徑。為了克服這一問題,我們提出了一種新的插件方法,稱為DreamMatcher,將T2I個性化重新定義為語義匹配。具體來說,DreamMatcher通過語義匹配將目標值替換為與之對齊的參考值,同時保持結構路徑不變,以保留預訓練T2I模型生成多樣結構的通用能力。我們還引入了一種語義一致的遮罩策略,以將個性化概念與目標提示引入的無關區域隔離開來。與現有的T2I模型兼容,DreamMatcher在複雜情境中顯示出顯著的改進。深入分析展示了我們方法的有效性。
從原始感測數據序列進行推理是一個普遍存在的問題,涵蓋範圍從醫療設備到機器人技術。這些問題通常涉及使用長序列的原始感測數據(例如磁力計、壓阻器)來預測理想物理量的序列(例如力量、慣性測量)。儘管傳統方法對於局部線性預測問題很有效,但在使用真實世界的感測器時往往表現不佳。這些感測器通常是非線性的,受到外部變量(例如振動)的影響,並呈現出依賴數據的漂移。對於許多問題來說,由於獲取地面真實標籤需要昂貴的設備,預測任務變得更加困難。在這項工作中,我們提出了分層狀態空間模型(HiSS),這是一種概念上簡單的新技術,用於連續序列預測。HiSS將結構化的狀態空間模型堆疊在一起,以創建時間層次結構。在從基於觸覺的狀態預測到基於加速度計的慣性測量等六個真實世界感測器數據集上,HiSS在均方誤差(MSE)上至少比因果Transformer、LSTM、S4和Mamba等最先進的序列模型表現優異23%。我們的實驗進一步表明,HiSS對較小數據集的有效擴展性,並與現有的數據過濾技術兼容。代碼、數據集和視頻可在https://hiss-csp.github.io找到。
擴散模型最近越來越多地應用於時間數據,例如視頻、流體力學模擬或氣候數據。這些方法通常對擴散過程中的噪聲量平等地處理後續幀。本文探討滾動擴散:一種使用滑動窗口降噪過程的新方法。它確保擴散過程通過時間逐漸變壞,通過為後續序列中出現的幀賦予更多噪聲,反映生成過程展開時對未來的更大不確定性。從實證上來看,我們展示了當時間動態複雜時,滾動擴散優於標準擴散。具體而言,這一結果在使用Kinetics-600視頻數據集進行視頻預測任務以及在混沌流體動力學預測實驗中得到證明。