每日精選AI研究論文及翻譯
大型語言模型(LLMs)在許多數學推理基準上取得了令人印象深刻的成功。然而,越來越多人擔心這些成績實際上反映了數據集污染的問題,即類似基準問題的數據泄漏到訓練數據中,而非真正的推理能力。為了嚴謹地調查這一主張,我們委託了Grade School Math 1000(GSM1k)項目。GSM1k旨在模擬已建立的GSM8k基準的風格和複雜性,後者是衡量基本數學推理的黃金標準。我們確保這兩個基準在人類解題率、解題步驟數、答案大小等重要指標上是可比較的。在對GSM1k上的領先開源和封閉源LLMs進行評估時,我們觀察到準確率下降高達13%,其中幾個模型家族(例如Phi和Mistral)表現出幾乎所有模型尺寸都存在系統性過擬合的證據。與此同時,許多模型,特別是那些處於前沿的模型(例如Gemini/GPT/Claude),顯示出很少的過擬合跡象。進一步的分析表明,模型生成GSM8k示例的概率與其在GSM8k和GSM1k之間的性能差距之間存在正向關係(Spearman's r^2=0.32),這表明許多模型可能已經部分記住了GSM8k。
隨著引入以文字條件為基礎的擴散模型,圖像編輯已有顯著進步。儘管如此,根據文字指示無縫地將物件添加到圖像中,而無需使用者提供的輸入遮罩仍然是一個挑戰。我們通過利用一項洞察,即移除物件(修補)明顯比添加它們(繪製)簡單得多,這歸因於在修補模型內部進行修補的分割遮罩數據集的應用。利用這一領悟,通過實施自動化和廣泛的流程,我們精心編輯了一個過濾後的大規模圖像數據集,其中包含圖像及其對應的已移除物件版本。利用這些對,我們訓練了一個擴散模型,以逆轉修補過程,有效地將物件添加到圖像中。與其他編輯數據集不同,我們的數據集具有自然目標圖像,而非合成圖像;此外,它通過構建保持了源圖像和目標圖像之間的一致性。此外,我們利用一個大型視覺語言模型提供已移除物件的詳細描述,並使用大型語言模型將這些描述轉換為多樣且自然的語言指示。我們展示了訓練模型在質量和量化方面均超越現有模型,並釋放了這個大規模數據集以及訓練好的模型供社群使用。
傳統的從人類反饋學習(RLHF)方法,依賴如Bradley-Terry模型之參數模型,無法捕捉人類偏好中的不傳遞性和非理性。最近的進展表明,直接處理偏好概率可以更準確地反映人類偏好,從而實現更靈活和準確的語言模型對齊。本文提出了一種基於自我對弈的語言模型對齊方法,將問題視為一個旨在識別納什均衡策略的恆和雙人遊戲。我們的方法被稱為自我對弈偏好優化(SPPO),通過迭代策略更新來逼近納什均衡,並具有理論上的收斂保證。我們的方法可以有效地提高所選回應的對數似然,降低被拒絕回應的對數似然,這是對稱配對損失(如直接偏好優化(DPO)和身份偏好優化(IPO))無法輕易實現的。在我們的實驗中,僅使用UltraFeedback數據集中的60k提示(不包括回應),並且不進行任何提示擴充,通過利用僅具有0.4B參數的預訓練偏好模型PairRM,SPPO可以從微調Mistral-7B-Instruct-v0.2獲得一個在AlpacaEval 2.0上對抗GPT-4-Turbo的最新控制長度勝率達28.53%的模型。它還在MT-Bench和Open LLM Leaderboard上優於(迭代的)DPO和IPO。值得注意的是,SPPO的強勁表現是在沒有來自GPT-4或其他更強大語言模型的額外外部監督(例如回應、偏好等)的情況下實現的。
本研究提出了一項針對最新大型語言模型 Llama-3 的目標模型編輯分析。我們探討了針對精確層介入而設計的流行模型編輯技術 - ROME、MEMIT 和 EMMET 的效力。透過評估,跨越三種不同策略:順序編輯、批次編輯和我們稱之為順序批次編輯的混合方法,我們確定了最有效的層進行目標編輯。我們的研究結果顯示,增加編輯批次大小可能會比依序使用較小的編輯批次對相同數量的編輯更明顯地降低模型性能。基於此,我們認為順序模型編輯是擴展模型編輯方法的重要組成部分,未來的研究應該專注於結合批次和順序編輯的方法。這一觀察表明了當前模型編輯方法可能存在的一個潛在限制,即傾向於使用更大的編輯批次大小,我們希望這將為未來對優化批次大小和模型編輯性能進行研究鋪平道路。
大型語言模型(LLMs)通過將音頻轉換為離散標記的音頻編解碼器,顯著推進了音頻處理,從而使語言建模技術應用於音頻數據成為可能。然而,傳統編解碼器通常在高比特率下運行,或者僅在狹窄領域(如語音)內運作,缺乏進行有效語言建模所需的語義線索。為應對這些挑戰,我們提出了SemantiCodec,一種新型編解碼器,旨在將音頻壓縮為每秒不到一百個標記,涵蓋語音、一般音頻和音樂等多樣音頻類型,而無需犧牲質量。SemantiCodec採用雙編碼器架構:一個使用自監督AudioMAE的語義編碼器,在廣泛音頻數據上使用k均值聚類進行離散化,以及一個聲學編碼器來捕捉其餘細節。語義和聲學編碼器的輸出用於通過基於擴散模型的解碼器重建音頻。SemantiCodec有三種變體,標記速率分別為每秒25、50和100個,支持0.31 kbps至1.43 kbps之間的一系列超低比特率。實驗結果表明,SemantiCodec在重建質量上顯著優於最先進的Descript編解碼器。我們的結果還表明,即使在明顯較低的比特率下,SemantiCodec包含的語義信息也遠遠豐富於所有評估的音頻編解碼器。我們的代碼和演示可在https://haoheliu.github.io/SemantiCodec/上找到。
大型語言模型(LLMs)因自回歸解碼需求與大多數當代 GPU 設計不匹配而效率低下。具體而言,數十億至數萬億個參數必須透過有限的記憶體頻寬加載到 GPU 快取中進行計算,但實際上只有一小批標記被計算。因此,GPU 大部分時間花在記憶體傳輸而非計算上。最近,並行解碼,一種推測解碼算法,變得越來越受歡迎,並在生成中展示了令人印象深刻的效率提升。它向大型模型引入額外的解碼頭,使它們能夠同時預測多個後續標記,並在單個解碼步驟中驗證這些候選續集。然而,這種方法偏離了預訓練期間使用的下一個標記預測的訓練目標,導致候選標記的低命中率。在本文中,我們提出了一種新的推測解碼算法 Clover,它將順序知識整合到並行解碼過程中。這種增強改善了推測器的命中率,從而提高了整體效率。Clover 通過 Regressive Connection 從預測標記傳輸順序知識,然後利用 Attention Decoder 整合這些預測標記。此外,Clover 還包括一個增強塊,用於修改隱藏狀態,以更好地配合推測生成的目的,而非下一個標記預測。實驗結果表明,Clover 在 Baichuan-Small 上的表現比基準提高了高達 91%,在 Baichuan-Large 上提高了 146%,分別超過了之前表現最佳的方法 Medusa 在 Baichuan-Small 和 Baichuan-Large 上的表現高達 37% 和 57%。
最近,作為一種新穎的3D表示方法,3D高斯濺射引起了人們的關注,因其快速渲染速度和高質量渲染而聞名。然而,這也伴隨著高內存消耗,例如,一個訓練良好的高斯場可能使用三百萬個高斯基元和超過700 MB 的內存。我們將這種高內存佔用歸因於對基元之間關係的缺乏考慮。在本文中,我們提出了一種記憶效率高的高斯場,名為SUNDAE,採用了光譜修剪和神經補償。一方面,我們在高斯基元集合上構建圖形以建模它們之間的關係,並設計了一個光譜下採樣模塊,以剪除基元同時保留所需信號。另一方面,為了補償剪除高斯的質量損失,我們利用輕量級神經網絡頭來混合濺射特徵,這有效地補償了質量損失,同時在其權重中捕捉基元之間的關係。我們通過廣泛的結果展示了SUNDAE的性能。例如,在Mip-NeRF360數據集上,SUNDAE在145 FPS 時可以實現26.80 PSNR,使用104 MB 內存,而原始的高斯濺射算法在160 FPS 時使用523 MB 內存實現25.60 PSNR。代碼可在https://runyiyang.github.io/projects/SUNDAE/ 公開獲取。
在自主駕駛中,追蹤三維空間中的物體至關重要。為了確保行駛安全,追蹤器必須能夠可靠地跨幀追蹤物體,並準確估計它們的狀態,如當前的速度和加速度。現有的研究常常專注於關聯任務,而忽略了模型在狀態估計上的表現,或者部署複雜的啟發式方法來預測狀態。在本文中,我們提出了一種使用Transformer構建的具有狀態追蹤模型STT,該模型可以在場景中持續追蹤物體,同時準確預測它們的狀態。STT通過長期檢測歷史消耗豐富的外觀、幾何和運動信號,並且為數據關聯和狀態估計任務進行聯合優化。由於標準的追蹤指標如MOTA和MOTP無法捕捉兩個任務在更廣泛的物體狀態光譜中的綜合表現,我們通過新的指標S-MOTA和MOTPS來擴展它們,以解決這一限制。STT在Waymo Open Dataset上實現了具有競爭力的實時性能。
應用程式開發人員通過建立產品頁面並競標搜索關鍵詞來宣傳他們的應用程式。因此,應用程式圖像與搜索關鍵詞高度相關至關重要。解決這個問題的方案需要一個圖像-文本匹配模型來預測所選圖像與搜索關鍵詞之間匹配的質量。在這項工作中,我們提出了一種新穎的方法,根據對預先訓練的LXMERT模型進行微調,來將應用程式圖像與搜索關鍵詞進行匹配。我們展示相對於CLIP模型以及一個使用Transformer模型用於搜索關鍵詞,以及使用ResNet模型用於圖像的基準線,我們顯著提高了匹配準確性。我們使用兩組標籤來評估我們的方法:廣告商關聯的(圖像,搜索關鍵詞)對應於特定應用程式,以及人類對(圖像,搜索關鍵詞)對之間相關性的評分。我們的方法在廣告商關聯的真實數據上實現了0.96的AUC分數,優於Transformer+ResNet基準線和微調的CLIP模型分別達到8%和14%。對於人類標記的真實數據,我們的方法實現了0.95的AUC分數,優於Transformer+ResNet基準線和微調的CLIP模型分別達到16%和17%。