每日精選AI研究論文及翻譯
對比損失是一種強大的表示學習方法,其中通過提供更多負樣本來增強性能的較大批次大小,以更好地區分相似和不相似的數據。然而,批次大小的擴展受到 GPU 記憶體消耗呈二次增長的限制,主要是由於相似性矩陣的完全實例化。為了解決這個問題,我們提出了一種基於瓦片的計算策略,將對比損失計算分為任意小的塊,避免完全實例化相似性矩陣。此外,我們引入了多級瓦片策略,利用分佈式系統的分層結構,採用 GPU 層級的環形通信來優化同步,並在 CUDA 核心級別上使用融合內核以減少 I/O 開銷。實驗結果顯示,所提出的方法可以將批次大小擴展到前所未有的水平。例如,它使得可以使用 8 或 32 個 A800 80GB 進行對比訓練 CLIP-ViT-L/14 模型,批次大小為 4M 或 12M,而不會降低任何準確性。與最先進的節省記憶體解決方案相比,它實現了記憶體減少兩個數量級,同時保持可比擬的速度。代碼將公開提供。
大型語言模型(LLMs)儘管在各項任務上具有卓越的能力,但仍然存在幻覺問題,指的是生成內容中的非事實信息。與此同時,知識編輯已被發展為一種新興流行範式,用於糾正LLMs中編碼的錯誤事實知識,具有避免從頭重新訓練的優勢。然而,現有知識編輯評估數據集的一個常見問題是,它們並未確保LLMs在進行編輯之前實際生成幻覺答案以回答評估問題。當LLMs在經過不同技術編輯後在這些數據集上進行評估時,很難直接採納性能來評估不同知識編輯方法在糾正幻覺方面的有效性。因此,基本問題仍未得到充分驗證:知識編輯是否真的能夠糾正LLMs中的幻覺?我們提出了HalluEditBench,以全面評估知識編輯方法在糾正現實世界幻覺方面的表現。首先,我們嚴謹構建了一個包含9個領域、26個主題和超過6,000個幻覺的大型數據集。然後,我們從效能、泛化性、可移植性、局部性和韌性等五個維度全面評估知識編輯方法的表現。通過HalluEditBench,我們提供了對不同知識編輯方法在糾正幻覺方面的潛力和限制的新見解,這可能激發未來的改進並促進知識編輯領域的進展。
長文本模型(LCMs)已展現出處理長輸入序列(甚至超過 100M 個標記)的便利和有效潛力。隨著重大進展,最近的研究指出,LCMs 能夠準確地定位上下文中的標記級重要信息。然而,這些 LCMs 的生成性能遠未令人滿意,可能導致錯位的回應,如幻覺。為了增強 LCMs 的生成能力,現有研究已調查了數據大小和質量對於預訓練和指導調整的影響。儘管取得了有意義的改進,以往的方法在效果或效率方面均存在不足。在本文中,我們介紹了 LOGO(通過高效偏好優化實現長文本對齊),這是一種培訓策略,首先引入了長文本對齊的偏好優化。為了克服由於長序列引起的 GPU 內存限制問題,LOGO 使用了一種無參考的偏好優化策略,並採用了一種位置綜合方法來構建培訓數據。通過在單個 8timesA800 GPU 機器上僅使用 0.3B 數據進行 16 小時的培訓,LOGO 使 Llama-3-8B-Instruct-80K 模型能夠在現實中的長文本任務中實現與 GPT-4 可比的性能,同時保留模型在其他任務(如語言建模和 MMLU)上的原始能力。此外,LOGO 還可以擴展模型的上下文窗口大小,同時增強其生成性能。
高質量數據的可用性是提升大型語言模型推理能力的最重要因素之一。現有研究已證明從種子問題或知識庫創建更多指導數據的有效性。最近的研究表明,持續從強大模型(例如GPT-4)擴展數據合成可以進一步引出推理性能。儘管有潛力,但開源社區仍缺乏大規模高質量數據和可負擔成本的可擴展數據合成方法。為解決這一問題,我們引入了ScaleQuest,一種可擴展且新穎的數據合成方法,利用“小型”(例如7B)開源模型從頭生成問題,無需複雜的擴增約束種子數據。通過高效的ScaleQuest,我們自動構建了一個包含100萬個問題-解決方案對的數學推理數據集,比現有的開源數據集更有效。它可以普遍提高主流開源模型的性能(即Mistral、Llama3、DeepSeekMath和Qwen2-Math),在MATH上實現29.2%至46.4%的增益。值得注意的是,僅通過使用我們的數據集對Qwen2-Math-7B-Base模型進行微調,甚至可以超越Qwen2-Math-7B-Instruct,這是一個在閉源數據上強大且良好對齊的模型,以及GPT-4-Turbo和Claude-3.5 Sonnet等專有模型。
我們提出了一種名為 Framer 的互動式幀插補方法,旨在根據使用者的創意產生兩幅圖像之間平滑過渡的幀。具體而言,除了將起始幀和結束幀作為輸入外,我們的方法還支持通過調整一些選定關鍵點的軌跡來自定義過渡過程。這種設計有兩個明顯的好處。首先,融入人類互動有助於緩解由於將一幅圖像轉換為另一幅圖像的眾多可能性而產生的問題,進而實現對局部運動的更精細控制。其次,作為互動的最基本形式,關鍵點有助於建立幀間的對應,增強模型處理具有挑戰性情況的能力(例如,起始幀和結束幀上的物體形狀和風格不同)。值得注意的是,我們的系統還提供了“自動駕駛”模式,其中我們引入了一個模組來自動估計關鍵點並優化軌跡,以簡化實際應用中的使用。大量實驗結果展示了 Framer 在各種應用中的出色性能,例如圖像變形、延時視頻生成、卡通插補等。代碼、模型和界面將被釋出以促進進一步的研究。
我們介紹了生成式無限遊戲的概念,這是一種視頻遊戲,通過使用生成模型超越了傳統有限、硬編碼系統的界限。受到詹姆斯·P·卡爾斯(James P. Carse)對有限和無限遊戲的區分的啟發,我們利用生成式人工智慧的最新進展來創建《無界》:一款完全封裝在生成模型中的角色生活模擬遊戲。具體來說,《無界》從沙盒生活模擬中汲取靈感,讓您可以通過餵食、與之互動和引導您的虛擬角色在虛擬世界中進行互動 - 這些互動機制由一個大型語言模型(LLM)生成,其中一些可能是新興的。為了開發《無界》,我們提出了在LLM和視覺生成領域的技術創新。具體來說,我們提出:(1)一個專門的、精煉的大型語言模型(LLM),動態生成遊戲機制、敘事和角色互動,並且是實時的;(2)一個新的動態區域圖像提示適配器(IP-Adapter)用於視覺模型,確保在多個環境中對角色進行一致而靈活的視覺生成。我們通過定性和定量分析來評估我們的系統,顯示與傳統相關方法相比,在角色生活模擬、用戶指導、敘事連貫性以及角色和環境的視覺一致性方面都取得了顯著的改進。
解決複雜的圖表問答任務需要多模式大型語言模型(MLLMs)具有先進的視覺推理能力。最近的研究強調這些能力包括兩個主要部分:從視覺輸入中識別關鍵信息和對其進行推理。因此,增強MLLMs的一種有前途的方法是構建聚焦於這兩個方面的相關訓練數據。然而,收集和標註複雜的圖表和問題既昂貴又耗時,確保標註答案的質量仍然是一個挑戰。在本文中,我們提出了代碼作為中介翻譯(CIT),這是一種成本效益高、高效且易於擴展的數據合成方法,用於從LLMs提煉視覺推理能力到MLLMs。代碼充當一個中介,將視覺圖表表示轉換為文本表示,使LLMs能夠理解跨模態信息。具體來說,我們採用基於文本的合成技術來構建繪製圖表的代碼,並生成了ReachQA數據集,其中包含3k個推理密集型圖表和20k個問答對,以增強識別和推理能力。實驗表明,當使用我們的數據進行微調時,模型不僅在與圖表相關的基準測試上表現良好,還在像MathVista這樣的一般數學基準測試上展現出改進的多模態推理能力。代碼和數據集可在https://github.com/hewei2001/ReachQA 公開獲取。
在本報告中,我們介紹了一系列增強LLMs獎勵建模的方法,專注於以數據為中心的技術。我們提出了有效的數據選擇和篩選策略,用於精心編纂高質量的開源偏好數據集,最終形成了Skywork-Reward數據集,其中僅包含80K對偏好對,明顯小於現有數據集。利用這個精心策劃的數據集,我們開發了Skywork-Reward模型系列 -- Skywork-Reward-Gemma-27B和Skywork-Reward-Llama-3.1-8B -- 其中前者目前在RewardBench排行榜上佔據領先位置。值得注意的是,我們的技術和數據集直接提升了許多排名靠前的模型在RewardBench上的表現,凸顯了我們在現實世界偏好學習應用中貢獻的實際影響。
大型語言模型(LLMs)可以在其參數中存儲大量事實知識。然而,它們的參數知識可能與上下文提供的信息相衝突 -- 這種現象被稱為上下文記憶知識衝突,可能導致模型行為不良,例如依賴過時或不正確的信息。通過分析LLMs的內部激活,我們發現它們可以在中間層內部記錄知識衝突的信號。這些信號使我們能夠檢測知識衝突是否發生,並使用推論時干預策略來解決它。在這項工作中,我們提出了SpARE,一種無需訓練的表示工程方法,它使用預訓練的稀疏自編碼器(SAEs)來控制LLMs的知識選擇行為。SpARE識別控制知識選擇行為的功能特徵,並將它們應用於編輯LLMs的內部激活以進行推論。我們的實驗結果顯示,SpARE可以有效控制在開放域問答任務中解決知識衝突的知識源的使用,超越現有的表示工程方法(+10%)以及對比解碼方法(+15%)。
分散式訓練和高效的注意機制的進步顯著擴大了大型語言模型(LLMs)的上下文窗口大小。然而,最近的研究顯示,開源LLMs的有效上下文長度通常不足,通常不超過其訓練長度的一半。在這項工作中,我們將這一限制歸因於LLMs預訓練和後訓練階段形成的相對位置的左偏頻率分佈,這阻礙了它們有效地收集遠距離信息的能力。為了應對這一挑戰,我們引入了ShifTed Rotray位置嵌入(STRING)。STRING在推理期間將訓練良好的位置移位,以覆蓋原始的無效位置,從而增強其現有的訓練長度內的性能。實驗結果顯示,在無需額外訓練的情況下,STRING顯著提高了最新的大規模模型(如Llama3.1 70B和Qwen2 72B)在流行的長上下文基準RULER和InfiniteBench上的表現超過10個百分點,為開源LLMs建立了新的最先進結果。與商業模型相比,Llama 3.1 70B甚至比GPT-4-128K表現更好,明顯優於Claude 2和Kimi-chat。
在自然語言處理(NLP)中,高效的長文本語言建模仍然是一個重大挑戰。儘管Transformer在語言任務中佔主導地位,但由於在訓練過程中存在二次計算複雜度以及推理過程中記憶成本線性增長的問題,它們在處理長序列時表現不佳。最近提出的狀態空間模型(SSMs)如Mamba提供了具有恆定記憶體使用的替代方案,但在需要大量上下文檢索的任務中表現不佳。我們引入了Taipan,一種新穎的混合架構,將Mamba-2與選擇性注意力層(SALs)相結合。這些SALs識別需要進行長距離交互作用的標記,刪除較不重要的特徵,然後使用注意力模塊增強它們的表示。這種方法在保持Mamba效率的同時,實現了類似Transformer在內存密集型任務中的性能。通過限制注意力預算,Taipan將準確預測的範圍擴展到長達100萬個標記的上下文長度,同時保持計算效率。我們的實驗表明,在各種規模和任務中,Taipan的性能優越,為高效的長文本語言建模提供了一個有前途的解決方案。
在視頻中對物體進行分割面臨著重大挑戰。每個像素必須被準確標記,並且這些標籤必須在幀之間保持一致。當分割具有任意粒度時,困難性增加,這意味著分段數量可以任意變化,並且遮罩是基於僅一個或少數樣本圖像定義的。在本文中,我們通過使用預先訓練的文本到圖像擴散模型並輔以額外的跟踪機制來解決這個問題。我們展示了我們的方法能夠有效地應對各種分割場景並且優於最先進的替代方案。
本研究探討人體動作生成的互動式編輯問題。先前的動作擴散模型缺乏對詞級文本-動作對應的明確建模和良好的可解釋性,因此限制了其精細編輯能力。為解決此問題,我們提出了一種基於注意力的動作擴散模型,即MotionCLR,具有清晰建模注意力機制。從技術上講,MotionCLR通過自注意力和交叉注意力分別對模態內和跨模態交互進行建模。具體而言,自注意力機制旨在衡量幀之間的序列相似性並影響動作特徵的順序。相比之下,交叉注意力機制旨在找到細粒度的詞序列對應並激活動作序列中相應的時間步。基於這些關鍵特性,我們通過操縱注意力映射開發了一套多功能的簡單而有效的動作編輯方法,例如動作(去)強調、原地動作替換和基於示例的動作生成等。為進一步驗證注意力機制的可解釋性,我們另外探索了通過注意力映射的動作計數和基於基準的動作生成能力的潛力。我們的實驗結果顯示,我們的方法在生成和編輯能力方面表現良好並具有良好的可解釋性。
網頁開發涉及將 UI 設計轉換為功能性網頁,對於初學者和有經驗的開發者來說都可能會面臨困難,因為 HTML 的階層結構和樣式的複雜性。雖然大型語言模型(LLMs)在生成原始碼方面表現出潛力,但在 UI 到 HTML 代碼生成方面仍存在兩個主要挑戰:(1)有效地為 LLMs 表示 HTML 的階層結構,以及(2)彌合 UI 設計的視覺特性與 HTML 代碼的文本格式之間的差距。為了應對這些挑戰,我們引入了一種新的微調策略 Waffle,該策略利用結構感知注意機制來改善 LLMs 對 HTML 結構的理解,並使用對比微調方法來對齊 LLMs 對 UI 圖像和 HTML 代碼的理解。通過 Waffle 進行微調的模型在我們的新基準測試 WebSight-Test 和現有基準設計2Code 上展示出高達 9.00 個百分點的 HTML 匹配度提高,CW-SSIM 提高 0.0982,CLIP 提高 32.99,以及 LLEM 提高 27.12 個百分點,優於當前的微調方法。
近年來,開發能夠執行各種視覺推理和理解任務的大型多模型(LMMs)引起了顯著興趣。這導致引入了多個LMM基準來評估LMM在不同任務上的表現。然而,大多數現有的LMM評估基準主要以英語為中心。在這項工作中,我們為阿拉伯語開發了一個全面的LMM評估基準,以代表超過4億說話者的大眾。所提出的基準,名為CAMEL-Bench,包括八個不同領域和38個子領域,包括多圖像理解、複雜視覺感知、手寫文件理解、視頻理解、醫學影像、植物疾病和基於遙感的土地利用理解,以評估廣泛的場景泛化能力。我們的CAMEL-Bench包含約29,036個問題,這些問題是從更大樣本池中篩選出來的,其中質量由母語人士手動驗證,以確保可靠的模型評估。我們對閉源模型(包括GPT-4系列)和開源LMM進行評估。我們的分析顯示,尤其是在最佳開源模型中,需要大幅改進,即使是閉源的GPT-4o也達到了62%的總分。我們的基準和評估腳本是開源的。
大型語言模型(LLMs)常常出現幻覺,通過誤解所提供的上下文或錯誤回憶內部知識而產生不忠實或事實不正確的輸出。最近的研究已識別出Transformer架構中的特定注意力頭,稱為檢索頭,負責提取相關的上下文信息。我們假設遮蔽這些檢索頭可能會誘發幻覺,並且對比基本LLM和遮蔽LLM的輸出可以減少幻覺。為此,我們提出了對比檢索頭解碼(DeCoRe),這是一種新穎的無需訓練的解碼策略,可以增強上下文和模型參數中發現的信息。DeCoRe通過動態對比基本LLM和遮蔽LLM的輸出,使用條件熵作為指導,來減輕潛在的幻覺回應。我們的大量實驗證實,DeCoRe顯著改善了需要高上下文忠實度的任務表現,例如摘要(XSum提高了18.6%)、遵循指示(MemoTrap提高了10.9%)和開放式問答(NQ-Open提高了2.4%,NQ-Swap提高了5.5%)。
我們介紹 CCI3.0-HQ(https://huggingface.co/datasets/BAAI/CCI3-HQ),這是中文語料庫互聯網 3.0(CCI3.0)的高質量500GB子集(https://huggingface.co/datasets/BAAI/CCI3-Data),採用了一種新型的兩階段混合過濾流程來顯著提升數據質量。為了評估其有效性,我們從頭開始在各種數據集上訓練了一個0.5B參數模型,跨越100B標記,相對於CCI3.0、SkyPile和WanjuanV1,在零-shot設置下在10個基準測試中取得了優異表現。高質量的過濾過程有效地將Qwen2-72B-instruct模型的能力提煉成一個緊湊的0.5B模型,實現了中文網絡數據分類的最優F1分數。我們相信這個開放訪問的數據集將促進更廣泛地訪問高質量的語言模型。
擴散模型在生成質量上取得卓越表現,但由於去噪過程的迭代性質,導致生成速度較慢。相比之下,一種新的生成模型家族,一致性模型,實現了具有顯著更快採樣速度的競爭性表現。這些模型通過一致性蒸餾或直接從原始數據進行的一致性訓練/調整進行訓練。在這項工作中,我們提出了一個新穎的框架,通過將擴散模型的去噪過程建模為馬爾可夫決策過程(MDP),並將一致性模型訓練定義為通過時間差異(TD)學習進行值估計。更重要的是,這個框架使我們能夠分析當前一致性訓練/調整策略的局限性。基於Easy Consistency Tuning(ECT),我們提出了Stable Consistency Tuning(SCT),它採用使用得分標識的變異減少學習。在CIFAR-10和ImageNet-64等基準測試中,SCT實現了顯著的性能改進。在ImageNet-64上,SCT實現了1步FID 2.42和2步FID 1.55,成為一致性模型的新的最佳表現。
目前的影像浮水印方法容易受到大規模文本轉影像模型所啟用的高級影像編輯技術的攻擊。這些模型能夠在編輯過程中扭曲嵌入的水印,對版權保護構成重大挑戰。在本研究中,我們介紹了 W-Bench,這是第一個旨在評估浮水印方法對各種影像編輯技術的穩健性的全面基準。這些技術包括影像再生、全域編輯、局部編輯和影像到視訊生成。通過對十一種具代表性的浮水印方法針對普遍編輯技術的廣泛評估,我們證明大多數方法在此類編輯後無法檢測水印。為解決這一限制,我們提出了 VINE,一種能夠顯著增強對各種影像編輯技術的穩健性並保持高影像質量的浮水印方法。我們的方法包含兩個關鍵創新:(1)我們分析影像編輯的頻率特性,並確定模糊失真展現相似的頻率特性,這使我們能夠在訓練過程中將其用作替代攻擊以增強水印的穩健性;(2)我們利用大規模預訓練擴散模型 SDXL-Turbo,將其調整為浮水印任務,實現更不可察覺和穩健的水印嵌入。實驗結果顯示我們的方法在各種影像編輯技術下實現了優異的浮水印性能,優於現有方法在影像質量和穩健性方面。程式碼可在 https://github.com/Shilin-LU/VINE 找到。
Transformer 可以使用自注意力機制捕捉長距離依賴性,使 token 能夠直接關注所有其他 token。然而,堆疊多個注意力層會導致注意力集中。解決這個問題的一種自然方法是使用跨層注意力,使得早期層的信息可以直接被後續層訪問。然而,這種方法在計算上是昂貴的。為了解決這個問題,我們提出了具有殘差值(ResFormer)的 Transformer,通過將第一層的值添加到所有後續層來近似跨層注意力。基於這種方法,一種變體是具有單層值(SVFormer)的 Transformer,其中所有層共享來自第一層的相同值嵌入,將 KV 緩存減少了近 50%。全面的實證證據表明,ResFormer 能夠減輕深層中的注意力集中問題,並增強大多數層的表示,優於普通的 Transformer、DenseFormer 和 NeuTRENO 在訓練錯誤以及下游任務中的表現。SVFormer 的訓練速度顯著快於普通的 Transformer,並且優於其他方法如 GQA 和 CLA,其性能受序列長度和累積學習率的影響。
最近在多模態融合方面取得的進展見證了視覺語言(VL)模型的顯著成功,這些模型在各種多模態應用中表現出色,如圖像標註和視覺問答。然而,構建VL模型需要大量硬體資源,效率受到兩個關鍵因素的限制:語言模型與視覺特徵的擴展輸入序列需要更多的計算操作,以及大量的額外可學習參數增加了記憶體複雜度。這些挑戰顯著限制了這些模型的更廣泛應用。為彌合這一差距,我們提出 ADEM-VL,一種高效的視覺語言方法,通過採用基於預訓練大型語言模型(LLMs)的無參數交叉注意力機制來調整VL模型,以進行多模態融合中的相似度測量。這種方法只需要將視覺特徵嵌入語言空間,顯著減少可訓練參數的數量,並加快訓練和推理速度。為了增強融合模塊中的表示學習,我們引入了一種高效的多尺度特徵生成方案,只需要通過視覺編碼器進行一次前向傳遞。此外,我們提出了一種自適應融合方案,根據每個文本標記的注意力分數動態丟棄較不相關的視覺信息。這確保了融合過程優先考慮最相關的視覺特徵。通過在各種任務上進行實驗,包括視覺問答、圖像標註和指示遵循,我們展示了我們的框架優於現有方法。具體而言,我們的方法在 ScienceQA 數據集上的平均準確率比現有方法高出 0.77%,同時減少了訓練和推理延遲,展示了我們框架的優越性。代碼可在 https://github.com/Hao840/ADEM-VL 找到。
大型語言模型(LLMs)被認為在算術學習方面存在困難,這是由於語言建模和數值計算之間固有的差異,但缺乏具體證據。本研究通過雙邊實驗回應了這一主張。我們首先調查LLMs在算術學習過程中是否利用部分乘積。我們發現,儘管LLMs在學習後能夠識別一些部分乘積,但它們未能將其應用於算術任務。接著,我們探討LLMs如何通過將任務分解為子群來符號化地處理算術問題,並假設困難來自於子群的複雜性和選擇。我們的結果顯示,當子群的複雜性固定時,LLMs會類似地處理一系列不同的算術運算。通過分析不同訓練尺寸下的位置級準確性,我們進一步觀察到其呈現U形模式:LLMs在第一和最後位置迅速學習最簡單的模式,同時逐漸學習中間位置的更困難模式。這表明LLMs在學習過程中按照從易到難的範式選擇子群。我們的研究確認了LLMs在算術任務中是純符號學習者,並強調了通過子群級別量化深入理解它們的重要性。
模型編輯已成為在語言模型中高效更新知識的日益普遍的替代方法。目前的方法主要聚焦於可靠性、泛化性和局部性,許多方法在這些準則上表現出色。一些最近的研究揭示了這些編輯方法的缺陷,如知識扭曲或衝突。然而,經過編輯後的語言模型的一般能力尚未被探索。在本文中,我們對各種編輯方法和不同語言模型進行了全面評估,得出以下結論。 (1) 現有的編輯方法導致在一般基準上不可避免的性能下降,表明現有的編輯方法僅在少數編輯中維持模型的一般能力。當編輯數量稍大時,模型的內在知識結構被破壞甚至完全損壞。 (2) 經過指導調整的模型對編輯更具韌性,在編輯後對一般知識的性能下降較少。 (3) 規模較大的語言模型相對於小模型更具抗編輯性。 (4) 編輯後模型的安全性明顯受損,即使是那些與安全相關的模型也是如此。我們的研究結果表明,目前的編輯方法僅適用於語言模型中小規模知識的更新,這促使進一步研究更實用和可靠的編輯方法。程式碼和重現細節可在 https://github.com/lqinfdim/EditingEvaluation 找到。
本文對生成式人工智慧領域中Transformer模型[33]的一些關鍵組件的數學問題形式化和概率優化探索進行了深入分析。我們從算法和概率優化的角度探索並討論了對生成式人工智慧模型的一些關鍵基礎技術進行當前技術的進一步增強的一些潛在方法。具體來說,我們提出了一種基於與[9]中字節對編碼(BPE)算法相似的初始設置以及與[28, 31]中WordPiece方法相似目標的子詞編碼(SWE)的最優解,以最大化訓練數據的概率。我們還提出了交叉熵優化方法,用於優化word2vec模型[17]的超參數。此外,我們提出了一種將旋轉位置編碼(RoPE)[32]和帶有線性偏差(ALiBi)[23]的注意力與調和級數結合的分解方法。我們還提出了一種概率FlashAttention [6, 7](PrFlashAttention)方法,通過在矩陣上的區塊距離上設置概率分佈,來決定哪個區塊可能參與給定輪的注意力計算,同時通過重新塑造張量來保持自回歸語言模型的張量的下三角形狀。最後,我們提出了基於[16]提出的框架的多查詢注意力(MQA)的鍵-值(KV)緩存的階梯自適應量化(SAQ),以實現合理的模型質量和成本節省,同時實現漸進式量化降級。
RLHF 的主導範式是線上和同策略強化學習:從大型語言模型(LLM)同步生成,使用獎勵模型進行標記,並使用對LLM自身輸出的反饋進行學習。儘管效能出色,但這種範式在計算上效率低下。受經典深度強化學習文獻的啟發,我們提出在RLHF中分離生成和學習。這使得可以異步生成新樣本,同時在舊樣本上進行訓練,從而加快訓練速度並實現更加計算效率的擴展。然而,異步訓練依賴於一個未經深入探討的範疇,即線上但離策略RLHF:在我們模型先前迭代的樣本上進行學習。為了了解這個範疇中的挑戰,我們研究一個基本問題:為了加快學習速度但保持性能,我們能容忍多少離策略性?在我們測試的幾種RLHF算法中,我們發現線上DPO對離策略數據最為穩健,而且穩健性隨著策略模型規模的增加而增加。我們進一步研究了異步RLHF的計算優化,但發現這些優化會帶來性能成本,產生一種權衡。最後,我們通過在指令跟隨任務上訓練LLaMA 3.1 8B,證實了異步RLHF的可擴展性,比同步運行快40%,同時實現了相同的最終性能。
數據縮放已經在自然語言處理和計算機視覺等領域引起了革命,為模型提供了卓越的泛化能力。本文探討了在機器人技術中,特別是在機器人操作中是否存在類似的數據縮放規律,以及適當的數據縮放是否能夠使單任務機器人策略能夠在相同類別的任何環境中零-shot部署於任何物體上。為此,我們對模仿學習中的數據縮放進行了全面的實證研究。通過在眾多環境和物體中收集數據,我們研究了策略的泛化性能如何隨著訓練環境、物體和示範數量的增加而變化。在我們的研究中,我們收集了超過40,000個示範,並在嚴格的評估協議下執行了超過15,000次真實世界機器人執行。我們的研究結果揭示了一些有趣的結果:策略的泛化性能與環境和物體的數量之間大致呈冪律關係。環境和物體的多樣性遠比示範的絕對數量更重要;一旦每個環境或物體的示範數量達到一定閾值,額外的示範對其影響微乎其微。基於這些見解,我們提出了一種高效的數據收集策略。通過四名數據收集者在一個下午的工作,我們收集了足夠的數據,使得兩個任務的策略在新環境中以及看不見的物體上實現約90%的成功率。
資料選擇對於優化語言模型(LM)在特定任務上的表現至關重要,然而大多數現有方法未能有效考慮目標任務的分佈。目前的方法要麼完全忽略任務特定要求,要麼依賴無法捕捉像自動形式化或程式碼生成這類任務所需微妙模式的近似方法。考慮目標分佈的方法通常依賴簡單、有時會產生噪音的表示,如雜湊n-gram特徵,這可能導致碰撞並引入噪音。我們引入ZIP-FIT,一個使用gzip壓縮直接衡量潛在訓練資料與目標任務分佈之間對齊的資料選擇框架。在自動形式化和Python程式碼生成的廣泛評估中,ZIP-FIT明顯優於DSIR和D4等領先基準。在ZIP-FIT選擇的資料上訓練的模型,其交叉熵損失最多比基準快85.1%,顯示更好的任務對齊導致更有效率的學習。此外,ZIP-FIT的選擇速度最多比DSIR快65.8%,比D4快兩個數量級。值得注意的是,ZIP-FIT表明,較小但對齊良好的資料集通常優於較大但不夠針對的資料集,這表明少量高品質資料勝過大量低品質資料。我們的結果暗示,對於有效的領域適應,具有任務意識的資料選擇至關重要,而壓縮提供了一種衡量任務對齊的原則方法。通過顯示針對性資料選擇可以顯著提高任務特定性能,我們的工作為資料品質、任務對齊和模型學習效率之間的關係提供了新的見解。
我們考慮多草案推測取樣,其中提議序列是從不同草案模型獨立取樣的。在每個步驟中,一個基於標記級的草案選擇方案將一個有效標記列表作為輸入,並生成一個輸出標記,其分佈與目標模型相匹配。先前的研究表明,最優方案(最大化接受其中一個輸入標記的概率)可以被視為線性規劃的解。在這項工作中,我們展示最優方案可以分解為兩步解決方案:在第一步中,使用一種重要性取樣(IS)類型方案來選擇一個中間標記;在第二步中,應用(單草案)推測取樣以生成輸出標記。對於兩個相同的草案模型的情況,我們進一步1)確立目標模型和草案模型的分佈條件,使接受概率等於一,並2)提供最優接受概率的明確表達式。我們的理論分析還促使了一類基於加權重要性取樣的標記級選擇方案。我們的實驗結果顯示,在多種情況下,相對於基準方案,可實現的區塊效率和標記速率均有一致改善。
機器輔助定理證明是指進行結構化推理,自動生成數學定理證明的過程。最近,人們對使用機器學習模型與證明助手相結合來執行此任務表現出濃厚興趣。本文介紹了 Pantograph,一個工具,提供了與 Lean 4 證明助手的多功能界面,並通過諸如蒙特卡羅樹搜索等強大搜索算法實現高效的證明搜索。此外,Pantograph 通過更強大地處理 Lean 4 推理步驟,實現了高層次的推理。我們對 Pantograph 的架構和功能進行了概述。我們還報告了一個說明性用例:使用機器學習模型和證明草稿證明 Lean 4 定理。Pantograph 的創新功能為更先進的機器學習模型執行複雜的證明搜索和高層次推理鋪平了道路,使未來的研究人員能夠設計更多功能強大的定理證明工具。