每日精選AI研究論文及翻譯
我們提出了位置插值(PI),擴展了基於RoPE預訓練LLM(如LLaMA模型)的上下文窗口大小,最多可達32768,而只需進行最少的微調(在1000步內),同時在需要長上下文的各種任務上展現出強大的實證結果,包括密鑰檢索、語言建模,以及從LLaMA 7B到65B的長文檔摘要。與此同時,位置插值擴展的模型在其原始上下文窗口範圍內相對保持了良好的質量。為了實現這一目標,位置插值將輸入位置索引線性縮小,以匹配原始上下文窗口大小,而不是超出訓練過的上下文長度,這可能導致災難性高的注意力分數,徹底破壞自注意機制。我們的理論研究顯示,插值的上限至少比外推的上限小約600倍,進一步證明了其穩定性。通過位置插值擴展的模型保留其原始架構,並且可以重用大多數現有的優化和基礎設施。
大型語言模型(LLMs)已顯示出在使用證明助手(如Lean)證明形式定理方面具有潛力。然而,由於私有代碼、數據和大量計算需求,現有方法難以復制或擴展。這給定理證明機器學習方法的研究帶來了重大障礙。本文通過引入LeanDojo來消除這些障礙:這是一個開源的Lean遊樂場,包括工具包、數據、模型和基準測試。LeanDojo從Lean中提取數據,並使得可以以程序方式與證明環境進行交互。它包含對證明中前提的精細注釋,為前提選擇提供了寶貴的數據:這是定理證明中的一個關鍵瓶頸。利用這些數據,我們開發了ReProver(檢索增強證明器):這是第一個以LLM為基礎的證明器,其搭配檢索以從龐大的數學庫中選擇前提。它成本低廉,僅需一個GPU週的訓練。我們的檢索器利用LeanDojo的程序分析功能來識別可訪問的前提和困難的負例,這使得檢索更加有效。此外,我們構建了一個新的基準測試,包括從Lean的數學庫中提取的96962個定理和證明。它具有具有挑戰性的數據分割,要求證明器對依賴於訓練中從未使用過的新前提的定理進行泛化。我們使用這個基準測試進行訓練和評估,實驗結果顯示ReProver相對於非檢索基線和GPT-4的效果。因此,我們提供了第一組無專有數據集的開源LLM基礎定理證明器,並根據寬鬆的MIT許可證發布,以促進進一步研究。
最近的研究 CLIPA 提出了一個與 CLIP 訓練相關的反向比例定律 -- 即使用較大的影像/文本編碼器,訓練時可以應用的影像/文本令牌序列長度會越短。這一發現使我們能夠以大幅減少計算量的方式訓練高性能的 CLIP 模型。基於這項工作,我們在此提出 CLIPA-v2,其中包含兩個關鍵貢獻。從技術上來說,我們發現這種反向比例定律在微調階段也適用,進一步減少了計算需求。從實證上來看,我們在大規模上探索了 CLIPA,將實驗擴展到 H/14 模型,訓練過程中觀察到約 130 億個影像-文本對。 我們的結果令人振奮 -- 只需投入 10,000 美元的預算,我們的 CLIP 模型就實現了令人印象深刻的零樣本 ImageNet 準確率達到 81.1%,超越了先前最佳的 CLIP 模型(來自 OpenCLIP,80.1%)1.0%,同時將計算成本降低了約 39 倍。此外,再投資 4,000 美元,我們可以進一步將零樣本 ImageNet 準確率提升至 81.8%。我們的程式碼和模型可在 https://github.com/UCSC-VLAA/CLIPA 找到。
相機姿勢估計是一個歷史悠久的計算机視覺問題,迄今經常依賴於傳統方法,如手工設計的關鍵點匹配、RANSAC和束調整。本文提出在概率擴散框架內制定結構從運動(SfM)問題,對輸入圖像給出相機姿勢的條件分佈。這種對一個古老問題的新觀點具有幾個優勢。 (i) 擴散框架的性質反映了束調整的迭代過程。 (ii) 該公式允許從基線幾何中無縫集成幾何約束。 (iii) 它在典型困難情況下表現出色,如稀疏視圖和寬基線。 (iv) 該方法可以預測任意數量圖像的內部和外部參數。我們展示了我們的方法PoseDiffusion在兩個真實世界數據集上明顯優於經典SfM流程和學習方法。最後,觀察到我們的方法可以在無需進一步訓練的情況下橫跨數據集進行泛化。項目頁面:https://posediffusion.github.io/
在語音社群中,解開言語發話中不相關的資訊是一個重要的研究主題。不同的與語音相關任務著重於提取不同的語音表示,同時最小化其他不相關資訊的影響。我們提出了一個大規模的語音語料庫,以促進語音表示解纏的研究。3D-Speaker 包含超過 10,000 名說話者,每位說話者同時被多個設備錄製,這些設備位於不同的距離,有些說話者會說多種方言。多維音頻數據的受控組合產生了一個多樣化的語音表示纏結矩陣,從而激發了解開它們的有趣方法。3D-Speaker 的多域性質也使其成為評估大型通用語音模型以及實驗跨領域學習和自監督學習方法的適當資源。https://3dspeaker.github.io/
當今在計算機視覺中,許多像素級密集預測任務,如深度估計和語義分割,都依賴於預訓練的圖像表示。因此,精心策劃有效的預訓練數據集至關重要。不幸的是,有效的預訓練數據集是那些具有多視角場景並僅使用模擬環境中的帶標註的3D網格、點雲和相機參數精心策劃的數據集。我們提出了一種不需要任何標註的數據集策劃機制。我們從開源視頻數據集和合成3D環境中採集了兩個數據集:MIMIC-1M(擁有130萬多視角圖像對)和MIMIC-3M(擁有310萬多視角圖像對)。我們訓練了多個具有不同遮罩圖像建模目標的自監督模型,展示了以下發現:在多個下游任務(包括深度估計、語義分割、表面法線和姿態估計)上,使用MIMIC-3M訓練的表示優於使用標註採集的表示。它們還優於凍結的表示,並且當下游訓練數據受限於少量樣本時表現更好。更大的數據集(MIMIC-3M)顯著提高了性能,這是令人鼓舞的,因為我們的策劃方法可以任意擴展以生成更大的數據集。MIMIC代碼、數據集和預訓練模型均在https://github.com/RAIVNLab/MIMIC上開源。
在上下文學習(ICL)中,通過在推論時展示少量示例,可以提高語言模型在各種自然語言處理任務上的性能。ICL 能力的出現尚不清楚,因為模型從未專門接受過此類示範訓練。與探索 ICL 背後的隱式機制的先前工作不同,我們通過研究預訓練數據來研究 ICL。具體而言,我們首先適應了一種迭代的基於梯度的方法,找到支持 ICL 的少量預訓練數據子集。我們觀察到,對這個小子集進行持續的預訓練顯著提高了模型的 ICL 能力,最多可提高 18%。然後,我們將支持子集與預訓練數據的隨機子集進行對比,並發現:(1)支持 ICL 的預訓練數據與下游任務的領域相關性並不更高。 (2)支持 ICL 的預訓練數據具有更多罕見的、長尾的標記。 (3)支持 ICL 的預訓練數據是具有挑戰性的示例,其中從長距離上下文中獲得的信息增益低於平均水平,這表明學習將困難的長距離上下文納入其中有助於 ICL。我們的工作是朝著通過分析實例級預訓練數據來理解 ICL 邁出的第一步。我們的見解有潛力通過積極指導未來預訓練數據的構建來增強語言模型的 ICL 能力。
目前大型語言模型已調整以符合其創作者的目標,即「有幫助且無害」。這些模型應該對用戶的問題給予有益回應,但拒絕回答可能導致危害的請求。然而,對手用戶可以構建繞過對齊嘗試的輸入。在這項工作中,我們研究這些模型在與構建最壞情況輸入(對抗性示例)的對手用戶互動時,保持對齊的程度。這些輸入旨在導致模型發出本應被禁止的有害內容。我們展示現有基於自然語言處理的優化攻擊不足以可靠地攻擊對齊的文本模型:即使當前基於自然語言處理的攻擊失敗時,我們可以通過蠻力找到對抗性輸入。因此,當前攻擊的失敗不應被視為對齊的文本模型在對抗性輸入下仍保持對齊的證據。 然而,大規模機器學習模型的最新趨勢是多模態模型,允許用戶提供影像來影響生成的文本。我們展示這些模型可以被輕易攻擊,即通過對輸入影像進行對抗性干擾,誘使其執行任意不對齊的行為。我們推測,改進的自然語言處理攻擊可能展示出對僅文本模型的同等對抗性控制水平。
我們研究了Transformer如何應對兩個挑戰:學習基本整數算術,以及對比訓練過程中見過的更長序列的泛化能力。我們發現相對位置嵌入使得在簡單任務中可以實現長度泛化,例如加法:在5位數字上訓練的模型可以執行15位數字的加總。然而,這種方法對於乘法失效,我們提出了訓練集啟動:將一些(10至50個)長序列添加到訓練集中。我們展示了啟動使得在5位數乘以3位數的乘法上訓練的模型可以泛化到35乘以3的例子。我們還展示了模型可以為不同的泛化長度進行啟動,並且啟動樣本大小隨著訓練集大小的對數縮放。最後,我們討論了啟動在算術之外的潛在應用。