每日精選AI研究論文及翻譯
稀疏自編碼器(SAEs)已成為大型語言模型(LLMs)逆向工程的核心要素。對於LLMs,它們已被證明能夠將通常無法直接解釋的中間表示分解為可解釋特徵的稀疏總和,有助於更好地控制和後續分析。然而,對於文本到圖像模型,類似的分析和方法卻缺乏。我們探討了使用SAEs來學習幾步文本到圖像擴散模型(如SDXL Turbo)的可解釋特徵的可能性。為此,我們在SDXL Turbo的去噪U-net中訓練SAEs,以學習變壓器塊執行的更新。我們發現它們學習到的特徵是可解釋的,對生成過程有因果影響,並顯示出塊之間的專業化。特別是,我們發現一個塊主要處理圖像構圖,一個主要負責添加局部細節,還有一個處理顏色、照明和風格。因此,我們的工作是更好地理解SDXL Turbo等生成式文本到圖像模型內部運作的重要第一步,並展示了SAEs學習到的特徵在視覺領域的潛力。 程式碼可在https://github.com/surkovv/sdxl-unbox找到。
在LLM後訓練中有何不同?我們通過梯度的角度研究大型語言模型(LLMs)中不同層的訓練模式,當使用不同回應和初始模型進行訓練時。我們特別關注快速思考與慢速思考如何影響層級梯度,鑒於最近在推理路徑(如CoT和過程獎勵)上訓練LLMs變得流行。在我們的研究中,沒有CoT的快速思考導致較大的梯度和跨層之間較大的梯度差異,這表明後者帶來的學習穩定性。此外,預訓練的LLMs受快速思考的不穩定性影響較小,而經過指導調整的LLMs則受到較大影響。此外,我們研究了當使用慢速思考路徑訓練不同LLMs時,梯度模式是否能反映回應的正確性。結果顯示,慢速思考的梯度可以區分正確和無關的推理路徑。作為比較,我們對非推理知識學習任務進行了類似的梯度分析,然而,在這些任務中,單純增加回應長度並不會導致慢速思考的類似行為。我們的研究加強了對LLM訓練的基本理解,並對其效率和穩定性提供了新的見解,為構建可泛化的System-2代理奠定了基礎。我們的代碼、數據和梯度統計可在以下鏈接找到:https://github.com/MingLiiii/Layer_Gradient。
在任務導向對話系統中,意圖檢測對於解釋用戶查詢並提供適當回應至關重要。現有研究主要處理具有單一意圖的簡單查詢,缺乏處理具有多個意圖和提取不同意圖範圍的複雜查詢的有效系統。此外,多語言、多意圖數據集明顯缺乏。本研究解決三個關鍵任務:從查詢中提取多個意圖範圍、檢測多個意圖,以及開發多語言多標籤意圖數據集。我們引入了一個新穎的多標籤多類別意圖檢測數據集(MLMCID數據集),該數據集是從現有基準數據集中精心挑選而來。我們還提出了一種基於指針網絡的架構(MLMCID),用於提取意圖範圍並檢測具有粗略和細粒度標籤的多個意圖,以六元組的形式呈現。全面分析顯示,我們基於指針網絡的系統在各種數據集上的準確性和F1分數方面優於基準方法。
指令調整是一種監督微調方法,顯著提高了大型語言模型(LLMs)遵循人類指令的能力。我們提出了SelfCodeAlign,這是第一個完全透明且允許的管道,用於自我對齊程式碼LLMs,無需大量人工標註或提煉。SelfCodeAlign在整個數據生成過程中使用相同的基礎模型進行推斷。它首先從高質量種子片段中提取多樣的編碼概念以生成新任務。然後對每個任務採樣多個回應,將每個回應與測試用例配對,並在沙箱環境中對其進行驗證。最後,選擇通過的示例進行指令調整。在我們的主要實驗中,我們使用SelfCodeAlign與CodeQwen1.5-7B生成了一個包含74k指令-回應對的數據集。在這個數據集上進行微調會使模型在HumanEval+上達到67.1的pass@1,超越了CodeLlama-70B-Instruct,儘管後者的大小只有前者的十分之一。在所有基準測試中,這個微調後的模型始終優於使用OctoPack訓練的原始版本,OctoPack是之前用於指令調整而無需人工標註或提煉的最先進方法。此外,我們展示了SelfCodeAlign對各種大小的LLMs都是有效的,從3B到33B,並且基礎模型可以更多地受益於與自身數據分佈的對齊。我們進一步驗證了我們管道中每個組件的有效性,顯示SelfCodeAlign優於直接從GPT-4o提煉以及領先的基於GPT-3.5的提煉方法,如OSS-Instruct和Evol-Instruct。SelfCodeAlign還促成了StarCoder2-Instruct的創建,這是第一個完全透明、授權寬鬆且自我對齊的程式碼LLM,實現了最先進的編碼性能。
大型語言模型(LLMs)已經在許多應用中引起了革命,但它們的部署仍受到本地設備的記憶限制的挑戰。雖然縮放定律增強了LLM的功能,但主要瓶頸已從功能轉移到可用性,強調了對高效記憶管理的需求。傳統的壓縮方法,如量化,通常需要預定義的壓縮比率和為每個設置單獨的壓縮過程,使其在可變記憶環境中的部署變得複雜。在本文中,我們介紹了BitStack,這是一種新穎的、無需訓練的權重壓縮方法,可以在記憶使用量和模型性能之間實現兆字節級的折衷。通過利用權重分解,BitStack可以動態調整模型大小,並在運行記憶體和存儲設備之間進行最小的傳輸。我們的方法通過考慮每個參數的重要性,迭代地分解權重矩陣,每次分解迭代中的每個參數殘差塊約為1位元。這些塊被排序並堆疊在存儲中作為基本傳輸單元,根據當前記憶體可用性加載不同數量。在各種任務上進行的大量實驗表明,儘管提供了細粒度的大小控制,BitStack始終與或優於強大的量化基線,特別是在極端壓縮比率下。據我們所知,這是第一個有效地將基於分解的方法與量化等實用壓縮技術有效連接的方法。代碼可在https://github.com/xinghaow99/BitStack找到。
大型語言模型(LLMs)在遵循具有複雜約束條件(格式、長度等)的指示時遇到困難。根據傳統的指示調整實踐,先前的研究對複雜指示-回應對進行後訓練,通過將複雜指示提供給先進的LLMs生成。然而,即使是先進的LLMs也無法很好地遵循複雜指示,從而限制了生成數據的質量。在這項工作中,我們發現現有數據集內在地包含隱含的複雜約束條件,並提出一種新穎的數據生成技術,即約束反向翻譯。具體而言,我們採用現有數據集中的高質量指示-回應對,僅採用先進的LLMs添加已被回應滿足的指示的複雜約束條件,這自然地降低了成本和數據噪音。在實驗中,我們採用Llama3-70B-Instruct來反向翻譯約束條件,創建了一個高質量的複雜指示-回應數據集,名為CRAB。我們展示了對CRAB進行後訓練可以提高多個主幹LLMs的複雜指示遵循能力,在廣泛的指示遵循基準測試中進行評估。我們進一步發現,約束反向翻譯也作為後訓練中一個有用的輔助訓練目標。我們的代碼、數據和模型將被釋出以促進未來研究。
最近大型語言模型(LLMs)的進步顯著增強了其處理長文本的能力,但在生成長且對齊的輸出方面仍存在明顯差距。這一限制源於訓練中的差距,即預訓練缺乏對於生成長文本的有效指導,而後訓練數據主要包含短的查詢-回應對。目前的方法,如指導反向翻譯和行為模仿,面臨著數據質量、版權問題以及專有模型使用限制等挑戰。本文介紹了一種創新的迭代訓練框架,稱為Self-Lengthen,利用LLMs的內在知識和技能,無需輔助數據或專有模型。該框架由兩個角色組成:生成器和擴展器。生成器生成初始回應,然後由擴展器進行分割和擴展。這個過程產生了一個新的、更長的回應,用於迭代地訓練生成器和擴展器。通過這個過程,模型逐步訓練以處理越來越長的回應。在基準測試和人類評估上的實驗表明,Self-Lengthen在應用於Qwen2和LLaMA3等頂級開源LLMs時,在長文本生成方面優於現有方法。我們的代碼公開在https://github.com/QwenLM/Self-Lengthen。
當使用更多參數時,神經網絡的性能會提高。 然而,在訓練和推斷期間,模型大小受可用的設備內存的限制。 儘管應用量化等技術可以緩解這種限制,但它們會導致性能下降。在這項工作中,我們介紹了一種名為NeuZip的新權重壓縮方案,該方案基於神經網絡中浮點數的熵。使用NeuZip,我們能夠實現記憶體高效的訓練和推斷,而不會犧牲性能。值得注意的是,我們將訓練一個Llama-3 8B模型的內存占用從31GB顯著降低到不到16GB,同時保持訓練動態完全不變。在推斷中,我們的方法可以將內存使用量減少一半以上,同時保持接近無損性能。我們的代碼已公開發布。
本文展示了可以從合成影片和自然圖像中學習到有用的影片表示,而無需在訓練中加入自然影片。我們提出了一系列通過簡單生成過程合成的影片數據集,這些數據集模擬了一組不斷增長的自然影片特性(例如運動、加速度和形狀變換)。在這些生成的數據集上預先訓練的影片模型的下游性能隨著數據集進展而逐漸提高。我們在我們的合成影片上預先訓練的 VideoMAE 模型在 UCF101 動作分類中,將從頭開始訓練和自監督預訓練自然影片之間的性能差距縮小了 97.2%,並且在 HMDB51 上優於預先訓練的模型。在預訓練階段引入靜態圖像的裁剪結果表現與 UCF101 預訓練相似,並且在 UCF101-P 的 14 個分布之外的數據集中,有 11 個優於 UCF101 預訓練模型。通過分析數據集的低級特性,我們確定了幀多樣性、幀與自然數據的相似性以及下游性能之間的相關性。我們的方法為預訓練的影片數據策劃過程提供了一種更可控且透明的替代方案。
許多研究已評估人工智慧系統的能力,特別是大型語言模型(LLMs),在促進日常任務方面的表現,如電子郵件撰寫、問答和創意內容生成。然而,研究人員在利用LLMs進行自身工作時面臨獨特的挑戰和機遇,例如構思研究想法、設計實驗以及撰寫或審查論文。在本研究中,我們介紹AAAR-1.0,一個旨在評估LLM在三個基本、專業密集的研究任務中的表現的基準數據集:(i)EquationInference,根據論文提交中的上下文信息評估方程式的正確性;(ii)ExperimentDesign,設計實驗以驗證研究想法和解決方案;(iii)PaperWeakness,識別論文提交中的弱點;以及(iv)REVIEWCRITIQUE,識別人類評論中每個部分是否不足。AAAR-1.0在兩個關鍵方面與先前的基準數據集不同:首先,它明確針對研究,任務需要深入的領域專業知識;其次,它針對研究人員,反映研究人員每天主要從事的活動。對於開源和專有LLMs的評估顯示了它們在進行複雜研究任務方面的潛力以及限制。我們將繼續對AAAR-1.0進行更新。
大型語言模型(LLMs)的崛起已經徹底改變了使用者與基於知識的系統的互動方式,使聊天機器人能夠綜合龐大的資訊並協助處理複雜的探索任務。然而,基於LLM的聊天機器人在提供個性化支援時常常遇到困難,特別是當使用者提出模糊查詢或缺乏足夠的上下文信息時。本文介紹了協作式個性化探索助手(CARE),這是一個旨在通過結合多智能體LLM框架和結構化使用者界面來增強探索任務個性化的系統。CARE的界面包括聊天面板、解決方案面板和需求面板,使得可以進行迭代式查詢優化和動態解決方案生成。多智能體框架合作識別明確和隱含的使用者需求,提供量身定制的可行解決方案。在一項對22名參與者進行的組內研究中,CARE一直優於基準LLM聊天機器人,使用者讚揚其減輕認知負荷、激發創造力和提供更貼身解決方案的能力。我們的研究結果突顯了CARE將LLM為基礎的系統從被動信息檢索者轉變為主動參與個性化問題解決和探索的潛力。
醫學視覺語言預訓練(MedVLP)展現了在從成對和非成對的醫學影像和報告中學習可泛化和可轉移的視覺表示方面的潛力。MedVLP能夠為下游任務提供有用的特徵,並有助於使用更少的示例將特定任務模型適應到新的設置中。然而,現有的MedVLP方法在數據集、預處理和微調實現方面常常存在差異。這對於評估一個MedVLP方法在各種臨床相關任務中的泛化能力構成了巨大挑戰,因為缺乏統一、標準化和全面的基準。為了填補這一空白,我們提出了BenchX,一個統一的基準框架,可以使用公共胸部X光數據集實現MedVLP方法之間的直接比較和系統分析。具體而言,BenchX由三個組件組成:1)包含九個數據集和四個醫學任務的全面數據集;2)基準套件,用於標準化數據預處理、訓練-測試分割和參數選擇;3)統一的微調協議,可容納異構MedVLP方法,以實現在分類、分割和報告生成方面的一致任務適應。利用BenchX,我們為九種最先進的MedVLP方法建立了基準,發現一些早期的MedVLP方法的性能可以提升,超越更近期的方法,促使重新審視先前MedVLP作品的發展和結論。我們的代碼可在https://github.com/yangzhou12/BenchX 上找到。
從單眼視頻中跟踪密集的3D運動仍然具有挑戰性,特別是當追求長序列中像素級精度時。我們引入了一種新方法——\Approach,這種方法能夠有效地跟踪3D空間中的每個像素,從而實現整個視頻的準確運動估計。我們的方法利用了聯合全局-局部注意機制來進行降低分辨率跟踪,然後通過基於Transformer的上採樣器來實現高分辨率預測。與現有方法不同,這些方法受到計算效率低下或稀疏跟踪的限制,\Approach在規模上提供了密集的3D跟踪,運行速度比先前的方法快8倍,同時實現了最先進的準確性。此外,我們探討了深度表示對跟踪性能的影響,並確定對數深度為最佳選擇。大量實驗證明了\Approach在多個基準測試中的優越性,實現了2D和3D密集跟踪任務的最新最先進結果。我們的方法為需要在3D空間中進行細粒度、長期運動跟踪的應用提供了堅固的解決方案。
在現實世界的情境中,期望具體化的代理能夠利用人類語言以獲取明確或隱含的知識,用於學習任務。儘管近年取得了進展,大多數先前的方法採用簡單的低層指令作為語言輸入,這可能無法反映自然的人類溝通。如何融入豐富的語言使用以促進任務學習並不明確。為了解答這個問題,本文研究了不同類型的語言輸入如何促進強化學習(RL)具體化代理。更具體地,我們檢視了不同程度的語言信息量(即過去行為的反饋和未來指導)以及多樣性(即語言表達的變化)如何影響代理學習和推理。我們基於四個RL基準的實證結果顯示,接受多樣和信息豐富的語言反饋訓練的代理能夠實現增強的泛化能力,並快速適應新任務。這些發現凸顯了語言在教導具體化代理在開放世界中學習新任務中的關鍵作用。項目網站:https://github.com/sled-group/Teachable_RL
本文研究了一種在對數損失下運作的新型有損壓縮框架,旨在處理重建分佈與來源分佈不一致的情況。該框架尤其適用於需要聯合壓縮和檢索的應用,以及涉及由於處理而導致分佈變化的情況。我們展示了所提出的公式通過整合瓶頸,將經典的最小熵耦合框架擴展,從而允許在耦合中控制一定程度的隨機性。我們探索了將最小熵耦合與瓶頸(MEC-B)分解為兩個不同優化問題的方法:對於編碼器的熵限制信息最大化(EBIM)和對於解碼器的最小熵耦合(MEC)。通過廣泛的分析,我們提供了一種對EBIM的貪婪算法,保證性能,并對接近功能映射的最優解進行了表徵,從而對這個問題的結構復雜性提供了重要的理論見解。此外,我們通過在速率限制下的馬可夫編碼遊戲(MCGs)中的實驗來說明MEC-B的實際應用。這些遊戲模擬了馬可夫決策過程中的通信情景,其中一個代理必須通過其動作將壓縮消息從發送者傳輸給接收者。我們的實驗突顯了在各種壓縮速率下MDP獎勵和接收者準確性之間的權衡,展示了我們的方法相對於傳統壓縮基準的有效性。
隨著預訓練語言模型的出現,尤其是對這些模型的擴展定律的發現,對大型文本語料庫的需求日益增加。大多數現有的語料庫僅包含足夠的數據以支持具有龐大主導社區的語言。然而,目前尚無可用的語料庫同時滿足以下條件:(i) 包含廣泛的少數語言;(ii) 由開源可重現的流程生成;以及(iii) 經過嚴格清理以去除噪音,使其可信賴。我們提出 GlotCC,這是一個從 CommonCrawl 衍生的乾淨的、文件級的、2TB 通用領域語料庫,涵蓋1000多種語言。我們將 GlotCC 及用於生成它的系統(包括流程、語言識別模型和過濾器)提供給研究社區。語料庫版本 1.0 可於 https://huggingface.co/datasets/cis-lmu/GlotCC-v1 下載,流程版本 3.0 可於 https://github.com/cisnlp/GlotCC 下載。