每日精選AI研究論文及翻譯
最近,學術界對如何建構更好的程式碼指令調整數據表現出了日益濃厚的興趣。然而,我們觀察到使用這些數據集訓練的程式碼模型在 HumanEval 上表現出色,但在 LiveCodeBench 等其他基準測試中表現較差。經進一步調查後,我們發現許多數據集存在嚴重的數據泄漏問題。在清理了大部分泄漏數據後,一些眾所周知的高質量數據集表現不佳。這一發現揭示了一個新挑戰:辨識哪些數據集真正符合高質量程式碼指令數據的資格。為了解決這個問題,我們提出了一種有效的程式碼數據修剪策略來選擇優質樣本。我們的方法基於三個維度:指令複雜度、回應質量和指令多樣性。基於我們選定的數據,我們提出了 XCoder,這是一系列從 LLaMA3 微調而來的模型。我們的實驗表明,XCoder 在使用更少的訓練數據的情況下實現了新的最先進性能,驗證了我們數據策略的有效性。此外,我們對數據組成進行了全面分析,發現現有的程式碼數據集根據其構建方法具有不同特徵,為未來程式碼 LLMs 提供了新的見解。我們的模型和數據集已在 https://github.com/banksy23/XCoder 上發布。
最近在LLM的進展中揭示了與計算效率和持續可擴展性相關的挑戰,這是由於它們對龐大參數的需求,導致這些模型在具有有限計算資源的設備上應用和演進變得越來越繁瑣。受到人類大腦內部模塊化的啟發,人們越來越傾向於將LLM分解為多個功能模塊,允許對部分模塊進行推理,並動態組裝模塊以應對複雜任務,例如專家混合模型。為了突顯模塊化方法的固有效率和可組合性,我們提出了一個術語“磚塊”來代表每個功能模塊,將模塊化結構定義為可配置的基礎模型。在本文中,我們對可配置基礎模型的構建、利用和限制進行了全面的概述和調查。我們首先將模塊正式劃分為新興磚塊 - 在預訓練階段出現的功能神經元分區,以及定制磚塊 - 通過額外的後訓練構建的磚塊,以提高LLM的能力和知識。基於多樣的功能磚塊,我們進一步提出了四種以磚塊為導向的操作:檢索和路由、合併、更新和擴展。這些操作允許根據指令對LLM進行動態配置,以應對複雜任務。為了驗證我們的觀點,我們對廣泛使用的LLM進行了實證分析。我們發現FFN層遵循模塊化模式,具有神經元的功能專門化和功能神經元分區。最後,我們強調了一些未解決的問題和未來研究方向。總的來說,本文旨在提供對現有LLM研究的新模塊化觀點,並激發未來創建更高效和可擴展基礎模型的創新。
我們介紹了 Open-MAGVIT2,這是一系列從 3 億到 15 億參數的自回歸圖像生成模型。Open-MAGVIT2 項目提供了 Google 的 MAGVIT-v2 分詞器的開源版本,這是一個具有超大型碼書(即 2^{18} 個代碼)的分詞器,並在 ImageNet 256x256 上實現了最先進的重建性能(1.17 rFID)。此外,我們探索了其在普通自回歸模型中的應用,並驗證了可擴展性特性。為了幫助自回歸模型預測超大詞彙,我們通過非對稱標記因子化將其分解為兩個不同大小的子詞彙,並進一步引入了“下一個子詞元預測”以增強子詞元交互以獲得更好的生成質量。我們釋放了所有模型和代碼,以促進自回歸視覺生成領域的創新和創造力。
擴散Transformer中的全局自注意機制涉及冗餘計算,這是由於視覺信息的稀疏和冗餘性質,以及空間窗口內標記的注意力映射顯示出顯著的相似性。為了解決這種冗餘性,我們提出了代理標記擴散Transformer(PT-DiT),它採用稀疏代表性標記注意力(代表性標記數量遠小於總標記數量)來高效地建模全局視覺信息。具體而言,在每個Transformer塊中,我們從每個空間-時間窗口中隨機抽樣一個標記,作為該區域的代理標記。通過這些代理標記的自注意力來捕捉全局語義,然後通過交叉注意力注入到所有潛在標記中。同時,我們引入窗口和移位窗口注意力,以解決稀疏注意力機制導致的細節建模限制。在設計良好的PT-DiT基礎上,我們進一步開發了奇虎-T2X系列,其中包括各種T2I、T2V和T2MV任務的模型。實驗結果表明,PT-DiT在圖像和視頻生成任務中實現了競爭性性能,同時減少了計算複雜度(例如,與DiT相比減少了48%,與Pixart-alpha相比減少了35%)。我們的源代碼可在https://github.com/360CVGroup/Qihoo-T2X找到。
從單眼影像重建逼真的3D人體模型在創意產業、人機介面和醫療保健領域具有重要應用。我們的工作基於3D高斯飄落(3DGS),這是一種由高斯混合組成的場景表示。從單張輸入圖像中預測人體的這種混合物是具有挑戰性的,因為它是一種非均勻密度(與輸入像素存在多對一的關係),並且受到嚴格的物理約束。同時,它需要具有靈活性,以容納各種服裝和姿勢。我們的關鍵觀察是,標準化人類網格(如SMPL)的頂點可以提供足夠的密度和高斯的近似初始位置。然後,我們可以訓練一個轉換器模型,共同預測相對較小的這些位置調整,以及其他高斯的屬性和SMPL參數。我們實證表明,這種組合(僅使用多視圖監督)可以實現從單張圖像快速推斷3D人體模型,而無需測試時優化、昂貴的擴散模型或3D點監督。我們還展示它可以通過更好地擬合考慮服裝和其他變化的人體模型來改善3D姿勢估計。代碼可在項目網站https://abdullahamdi.com/gst/ 上找到。
長文本語言模型(LMs)的能力通常是通過“草堆中的針”(NIAH)測試來評估的,該測試包含旨在評估模型識別大文本序列(“草堆”)中特定信息(“針”)的任務。儘管這些基準評估了模型理解長文本輸入序列的能力,但它們並不能有效地衡量長文本生成的質量——這對於設計提案和創意寫作等應用至關重要。為了彌補這一不足,我們引入了一個新的長文本評估基準,名為“紡金線”(SGT),該基準測試模型識別生成的長文本序列中特定事件的能力。在這個基準中,我們要求長文本LMs創建必須包含特定事件或約束的長文本,並評估它們整合這些元素的能力。我們在四個不同情境、三種提示指令類型和兩種不同生成長度設置(16K和32K)下評估了十個長文本LMs。儘管這些模型在NIAH基準上表現良好,但在“紡金線”測試中沒有一個表現令人滿意,這引發了對它們生成遵循指示的連貫長文本能力的擔憂。此外,隨著生成文本長度的增加,所有模型的性能均顯著下降。