每日精選AI研究論文及翻譯
Transformer 傾向於對無關上下文過度分配注意力。在這項研究中,我們引入了 Diff Transformer,該模型在放大相關上下文的同時抑制噪音。具體來說,差分注意力機制計算注意力分數作為兩個獨立 softmax 注意力地圖之間的差異。減法取消噪音,促進稀疏注意力模式的出現。在語言建模的實驗結果中顯示,Diff Transformer 在不同模型尺寸擴展和訓練標記的設置中優於 Transformer。更有趣的是,它在實際應用中提供了顯著的優勢,如長上下文建模、關鍵信息檢索、幻覺抑制、上下文學習和激活值的減少。由於對無關上下文的干擾較少,Diff Transformer 可以減輕問答和文本摘要中的幻覺。對於上下文學習,Diff Transformer 不僅提高了準確性,而且對於順序排列更為堅固,這被認為是一個長期的穩健性問題。這些結果將 Diff Transformer 定位為推進大型語言模型的高效且有前景的架構。
本文提出了一個先進的數學問題解決框架LLaMA-Berry,旨在增強大型語言模型(LLMs)的數學推理能力。該框架結合了蒙特卡羅樹搜索(MCTS)和迭代自我優化,以優化推理路徑,並利用成對獎勵模型全局評估不同路徑。通過利用LLMs的自我評論和重寫能力,自我優化應用於MCTS(SR-MCTS)克服了傳統逐步和貪婪搜索算法的低效和限制,促進了對解決方案空間的更有效探索。成對偏好獎勵模型(PPRM),靈感來自於從人類反饋中學習的強化學習(RLHF),然後用於對解決方案之間的成對偏好進行建模,利用增強波達計數(EBC)方法將這些偏好綜合成全局排名分數,以找到更好的答案。這種方法解決了數學推理任務中得分變異性和非獨立分佈的挑戰。該框架已在一般和高級基準測試中進行了測試,在搜索效率和問題解決能力方面表現優異,相較於現有方法如ToT和rStar,在複雜的奧林匹亞級基準測試中表現尤為出色,包括GPQA、AIME24和AMC23。
大型語言模型(LLMs)通常會產生錯誤,包括事實不準確、偏見和推理失敗,總稱為「幻覺」。最近的研究表明,LLMs 的內部狀態編碼了有關其輸出真實性的信息,並且這些信息可以用於檢測錯誤。在這項工作中,我們展示了LLMs 的內部表示比先前認識到的更多地編碼了有關真實性的信息。我們首先發現真實性信息集中在特定標記中,利用這種特性顯著提高了錯誤檢測性能。然而,我們發現這種錯誤檢測器無法在數據集之間進行泛化,暗示--與先前的說法相反--真實性編碼並非普遍存在,而是多方面的。接下來,我們展示內部表示還可以用於預測模型可能發生的錯誤類型,從而促進定制化緩解策略的開發。最後,我們揭示了LLMs 的內部編碼與外部行為之間的差異:它們可能編碼了正確答案,但始終生成不正確的答案。綜合這些見解,我們深化了對LLMs錯誤的理解,從模型的內部角度指導未來增強錯誤分析和緩解的研究。
文字到圖像(T2I)擴散模型已經改變了視覺內容的創作方式,但將這些能力擴展到文字到視頻(T2V)生成仍然是一個挑戰,特別是在保持時間一致性方面。現有的旨在提高一致性的方法通常會導致降低影像質量和不切實際的計算時間等折衷。為了應對這些問題,我們引入了VideoGuide,這是一個新穎的框架,可以增強預訓練的T2V模型的時間一致性,而無需進行額外的訓練或微調。相反,VideoGuide在推論的早期階段利用任何預訓練的視頻擴散模型(VDM)或自身作為指導,通過將引導模型的去噪樣本插值到抽樣模型的去噪過程中,從而提高時間質量。所提出的方法顯著改善了時間一致性和圖像保真度,提供了一個成本效益且實用的解決方案,能夠協同各種視頻擴散模型的優勢。此外,我們展示了先前的蒸餾,揭示了通過所提出的方法,基礎模型可以利用引導模型的優越數據先驗來實現增強的文本連貫性。項目頁面:http://videoguide2025.github.io/
儘管神經網絡,特別是MLP和Transformer所代表的神經網絡取得了顯著的成功,我們揭示了它們在建模和推理週期性方面存在潛在缺陷,即它們傾向於記憶週期性數據,而非真正理解週期性的基本原則。然而,週期性是各種形式推理和泛化的關鍵特徵,在自然和工程系統中透過觀察中的重複模式支撐可預測性。在本文中,我們提出了基於傅立葉分析的新型網絡架構FAN,它賦予了有效地建模和推理週期性現象的能力。通過引入傅立葉級數,週期性被自然地融入神經網絡的結構和計算過程中,從而實現對週期性模式更準確的表達和預測。作為多層感知器(MLP)的一個有前途的替代方案,FAN可以在各種模型中無縫地取代MLP,並具有更少的參數和FLOPs。通過大量實驗,我們展示了FAN在建模和推理週期函數方面的有效性,以及FAN在一系列現實任務中的優越性和泛化能力,包括符號公式表示、時間序列預測和語言建模。
近年來,大型語言模型(LLMs)的最新進展引起了人們對其形式推理能力的興趣,特別是在數學領域。GSM8K基準被廣泛用於評估模型對小學水平問題的數學推理能力。儘管LLMs在GSM8K上的表現近年來顯著提高,但它們的數學推理能力是否真正進步仍不清楚,這引發了對所報告指標可靠性的質疑。為了解決這些問題,我們對幾個最先進的開放和封閉模型進行了大規模研究。為了克服現有評估的限制,我們引入了GSM-Symbolic,這是一個改進的基準,由符號模板創建,可以生成多樣化的問題。GSM-Symbolic實現了更可控的評估,為測量模型推理能力提供了關鍵見解和更可靠的指標。我們的研究發現,LLMs對同一問題的不同實例作出回應時存在明顯變化。具體而言,當只更改GSM-Symbolic基準中問題中的數值時,所有模型的表現都會下降。此外,我們研究了這些模型數學推理的脆弱性,並顯示隨著問題中子句數量的增加,它們的表現顯著下降。我們假設這種下降是因為當前的LLMs無法進行真正的邏輯推理;它們僅從訓練數據中複製推理步驟。即使子句與問題看似相關,添加一個子句也會導致所有最先進模型的顯著性能下降(高達65%),即使該子句對於最終答案所需的推理鏈沒有貢獻。總的來說,我們的工作提供了對LLMs在數學推理方面能力和限制更為細緻的理解。
語言模型(LLM)的進步引起了對開發基於LLM的語言代理以實現科學發現端對端自動化的日益興趣,這引發了人們對此類代理真正能力的興奮和懷疑。在這項工作中,我們認為要使代理完全自動化科學發現,它必須能夠完成工作流程中的所有基本任務。因此,我們呼籲在對端對端自動化提出大膽主張之前,應對代理在科學工作流程中的各個任務進行嚴格評估。為此,我們提出了ScienceAgentBench,這是一個用於評估基於語言的代理進行數據驅動科學發現的新基準。為確保我們基準的科學真實性和現實關聯性,我們從四個學科的44篇同行評審出版物中提取了102個任務,並邀請了九位學科專家對其進行驗證。我們將每個任務的目標輸出統一為一個獨立的Python程序文件,並使用一系列評估指標來檢查生成的程序、執行結果和成本。每個任務都經過多輪由標註者和學科專家手動驗證,以確保其標註質量和科學合理性。我們還提出了兩種有效策略來減輕數據污染的擔憂。使用我們的基準,我們評估了五種開放權重和專有LLM,每種LLM都有三種框架:直接提示、OpenHands和自我調試。對於每個任務有三次嘗試,表現最佳的代理僅能獨立解決32.4%的任務,並在專家提供知識的情況下解決34.3%。這些結果突顯了當前語言代理在生成用於數據驅動發現的代碼方面的有限能力,更不用說端對端自動化科學研究了。
多模式大型語言模型(MLLMs)正在改變圖形用戶界面(GUI)代理的能力,促使它們從受控模擬轉變為跨各種平台的複雜現實應用。然而,這些代理的效力取決於它們的穩固基礎能力。目前的GUI代理主要利用基於文本的表示,如HTML或可訪問性樹,儘管這些表示具有實用性,但往往會引入噪音、不完整性和增加計算負擔。在本文中,我們主張為GUI代理提倡一種類似人類的具體化,使其完全以視覺方式感知環境並直接對GUI進行像素級操作。關鍵在於視覺基礎模型,它能夠將GUI元素的各種指稱表達準確地映射到不同平台上的GUI坐標。我們展示了一個簡單的方法,其中包括基於Web的合成數據和對LLaVA架構的輕微調整,對於訓練這種視覺基礎模型是非常有效的。我們迄今為止收集了最大的GUI視覺基礎數據集,包含1000萬個GUI元素及其對應的表達,涵蓋130萬個屏幕截圖,並用它來訓練UGround,一個強大的通用視覺基礎模型,適用於GUI代理。在涵蓋三個類別(基礎、離線代理和在線代理)的六個基準測試上的實證結果表明:1)UGround在GUI代理的視覺基礎模型方面明顯優於現有模型,絕對優勢高達20%;2)具有UGround的代理優於最先進的代理,儘管現有代理使用額外的基於文本的輸入,而我們的代理僅使用視覺感知。這些結果強有力地支持了像人類一樣在數字世界中導航的GUI代理的可行性和前景。
我們介紹了UniMuMo,一個統一的多模型,能夠接受任意的文本、音樂和動作數據作為輸入條件,以生成跨越所有三種模態的輸出。為了應對缺乏時間同步數據的問題,我們基於節奏模式對不成對的音樂和動作數據進行對齊,以利用現有的大規模僅音樂和僅動作數據集。通過將音樂、動作和文本轉換為基於標記的表示,我們的模型通過統一的編碼器-解碼器變壓器架構跨越這些模態。為了支持單一框架內的多個生成任務,我們引入了幾個架構改進。我們提出使用音樂碼書對動作進行編碼,將動作映射到與音樂相同的特徵空間。我們引入了一種音樂-動作平行生成方案,將所有音樂和動作生成任務統一到單一變壓器解碼器架構中,並通過單一訓練任務實現音樂-動作聯合生成。此外,該模型通過微調現有的預訓練單模型,顯著降低了計算需求。大量實驗表明,UniMuMo在跨音樂、動作和文本模態的所有單向生成基準上取得了競爭性結果。定量結果可在https://hanyangclarence.github.io/unimumo_demo/{project page}上查看。
從動態場景中估計幾何形狀,其中物體隨時間移動和變形,仍然是計算機視覺中的一個核心挑戰。目前的方法通常依賴於多階段流程或全局優化,將問題分解為深度和光流等子任務,導致容易出錯的複雜系統。在本文中,我們提出了Motion DUSt3R(MonST3R),一種新穎的以幾何為先的方法,直接從動態場景中估計每個時間步的幾何形狀。我們的關鍵見解是,通過簡單地為每個時間步估計一個點地圖,我們可以有效地將DUST3R的表示法適應到動態場景中,該表示法先前僅用於靜態場景。然而,這種方法面臨一個重大挑戰:適合的訓練數據稀缺,即帶有深度標籤的動態姿勢視頻。儘管如此,我們展示了通過將問題定義為微調任務,識別幾個適合的數據集,並在有限數據上策略性地訓練模型,我們可以令模型驚人地處理動態,即使沒有明確的運動表示。基於此,我們為幾個下游視頻特定任務引入了新的優化方法,並在視頻深度和相機姿態估計方面展示了強大的性能,優於以往的工作,具有更好的魯棒性和效率。此外,MonST3R對於主要的前向4D重建顯示出有希望的結果。
儘管擴散式文字轉音樂(TTM)方法有所進展,但高效率、高品質的生成仍然是一個挑戰。我們引入了Presto!,一種通過減少取樣步驟和每步成本的方法來加速基於樂譜的擴散變壓器的推理。為了減少步驟,我們為EDM系列的擴散模型開發了一種新的基於樂譜的分佈匹配蒸餾(DMD)方法,這是第一個基於GAN的TTM蒸餾方法。為了降低每步的成本,我們對最近的一種層蒸餾方法進行了簡單但強大的改進,通過更好地保留隱藏狀態變異性來改善學習。最後,我們將我們的步驟和層蒸餾方法結合起來,形成一種雙重方法。我們獨立評估了我們的步驟和層蒸餾方法,並展示了每個都具有最佳性能。我們結合的蒸餾方法可以生成高質量的輸出,並提高多樣性,將我們的基本模型加速10-18倍(32秒單聲道/立體聲44.1kHz的延遲為230/435ms,比可比的SOTA快15倍)-- 據我們所知,這是速度最快的高質量TTM。聲音示例可在https://presto-music.github.io/web/找到。
本技術報告介紹了一個名為臨床實體識別基準的基準,用於評估醫療保健中語言模型的性能,解決了從臨床敘事中提取結構化信息的關鍵自然語言處理(NLP)任務,以支持自動編碼、臨床試驗群體識別和臨床決策支持等應用。 排行榜提供了一個標準化平台,用於評估不同語言模型(包括編碼器和解碼器架構)在識別和分類多個醫學領域的臨床實體方面的能力。利用一個經過精心挑選的開放臨床數據集合,其中包含疾病、症狀、藥物、程序和實驗室測量等實體。重要的是,這些實體根據觀察性醫學結果合作夥伴關係(OMOP)通用數據模型進行了標準化,確保在不同醫療系統和數據集之間的一致性和互操作性,以及對模型性能的全面評估。模型的性能主要通過F1分數進行評估,並通過各種評估模式來提供對模型性能的全面洞察。報告還包括對迄今為止評估的模型的簡要分析,突出觀察到的趨勢和限制。 通過建立這個基準框架,排行榜旨在促進透明度,促進比較分析,並推動臨床實體識別任務的創新,解決醫療NLP中對強大評估方法的需求。
儘管獎勵模型在改進多模式大型語言模型方面取得成功,但獎勵模型本身仍然粗糙且包含極少信息。值得注意的是,現有的獎勵模型僅通過為任何文本分配單一二元反饋來模仿人類標註,而不論文本長度如何。在多模式語言模型的領域中,這些模型需要處理圖像和文本,一個天真的獎勵模型可能會對文本產生隱含偏見,並且與圖像的關聯性降低。在本文中,我們提出了一種基於標記級別的偵探獎勵模型(TLDR),以為每個文本標記提供細緻的標註。我們首先介紹一種基於干擾的方法來生成合成的困難負例及其標記級別標籤,以訓練TLDR模型。然後我們展示了TLDR模型的豐富用途,既可以幫助現成模型自我校正其生成,也可以作為幻覺評估工具。最後,我們展示了TLDR模型可以將人類標註速度提高3倍,以獲得更廣泛範圍的高質量視覺語言數據。
近期大型語言模型(LLMs)展示了在長文本情境中的多功能能力。儘管一些最近的基準已經被開發用於評估LLMs的長文本能力,但缺乏評估LLMs在長文本中的數學推理能力的基準,這對於LLMs在實際場景中的應用至關重要。本文介紹了MathHay,一個自動化基準,旨在評估LLMs的長文本數學推理能力。與先前的基準(如針在簸箕中)不同,後者主要聚焦於長文本中的資訊檢索,MathHay要求模型具備資訊尋求和複雜數學推理能力。我們在MathHay上進行了廣泛實驗,以評估八個表現優異的LLMs的長文本數學推理能力。即使是表現最佳的模型Gemini-1.5-Pro-002,在長文本數學推理方面仍然存在困難,在128K tokens時僅達到51.26%的準確率。這突顯了在MathHay基準上有很大的改進空間。
隨著大型語言模型(LLMs)的應用擴展,對可靠評估的需求也增加。現有的LLM評估基準主要依賴靜態數據集,這使得在與用戶動態交互中評估模型性能變得具有挑戰性。此外,這些基準通常依賴特定的背景知識,使得衡量模型邏輯推理能力變得複雜。基於強模型或手動工作的其他動態評估方法可能會引入偏見,並產生高成本和時間需求,從而阻礙大規模應用。為解決這些問題,我們提出了TurtleBench。TurtleBench從我們開發的在線Turtle Soup Puzzle平台中收集真實用戶猜測。這種方法允許相對動態地生成評估數據集,減輕模型作弊的風險,同時更貼近真實用戶對推理能力的需求,從而提高評估的可靠性。TurtleBench包括1,532個用戶猜測以及注釋後的猜測正確性。使用這個數據集,我們對當今九種最先進的LLMs進行了全面評估。值得注意的是,OpenAI o1系列模型在這些評估中並未取得領先的結果。我們提出了一些進一步研究的假設,例如“o1的潛在推理利用了微不足道的Chain-of-Thought(CoT)技術”和“增加CoT長度不僅提供推理效益,還會產生噪音成本”。
我們提出了 OmniBooth,一個影像生成框架,可實現空間控制與實例級多模態定制。對於所有實例,多模態指令可以通過文本提示或圖像參考來描述。在給定一組用戶定義的遮罩和相應的文本或圖像指導的情況下,我們的目標是生成一幅圖像,其中多個物體位於指定坐標,並且它們的屬性與相應的指導精確對齊。這種方法顯著擴展了文本到圖像生成的範圍,使其提升到更具靈活性和實用性的可控維度。在本文中,我們的核心貢獻在於提出的潛在控制信號,這是一個高維度的空間特徵,提供了一個統一的表示,無縫集成了空間、文本和圖像條件。文本條件擴展了 ControlNet,以提供實例級開放詞彙生成。圖像條件進一步實現了對個性化身份的精細控制。在實踐中,我們的方法賦予用戶更多的靈活性,因為用戶可以根據需要從文本或圖像中選擇多模態條件。此外,通過徹底的實驗,我們展示了我們在圖像合成保真度和在不同任務和數據集上的對齊方面的增強性能。項目頁面:https://len-li.github.io/omnibooth-web/
模型合併旨在將多個專家模型結合成一個更具能力的單一模型,提供諸如減少存儲和服務成本、改善泛化能力以及支持分散式模型開發等好處。儘管具有潛力,先前的研究主要集中在合併少數小型模型上。這留下了許多未解之謎,關於模型尺寸擴展的影響以及它如何與其他關鍵因素相互作用,例如基礎模型質量和專家模型數量,以影響合併模型的性能。這項工作系統地評估了規模化模型合併的效用,考察了這些不同因素的影響。我們通過使用4種流行的合併方法(平均、任務算術、Dare和TIES)對完全微調的模型進行合併實驗,這些模型的參數範圍從10億到64億,並將最多8個不同專家模型進行合併。我們對合併模型在保留任務和零樣本泛化到未見過的保留任務上進行評估。我們的實驗提供了關於規模化模型合併以及不同因素之間相互作用的幾個新見解。首先,我們發現,當專家模型來自具有良好零樣本性能的強基礎模型時,合併效果更好。其次,較大的模型有助於更容易地進行合併。第三,合併一致地提高泛化能力。值得注意的是,當合併8個大型專家模型時,與多任務訓練模型相比,合併模型通常具有更好的泛化能力。第四,當處理較大的模型時,我們可以更好地合併更多專家模型。第五,不同的合併方法在較大規模下的行為非常相似。總的來說,我們的研究結果揭示了模型合併的一些有趣特性,同時也突出了一些限制。我們希望這項研究將成為未來研究中大規模合併的參考依據。
資料策展是如何將樣本收集並組織成支持有效學習的數據集的問題。儘管這項任務至關重要,但很少有工作致力於對各種策展方法進行大規模、系統性比較。在這項工作中,我們朝著對資料策展策略進行正式評估邁出了一步,並引入了 SELECT,這是用於圖像分類的第一個大規模策展策略基準測試。 為了為 SELECT 基準測試生成基準方法,我們創建了一個新的數據集 ImageNet++,這是迄今為止 ImageNet-1K 的最大超集。我們的數據集通過 5 種新的訓練數據轉移擴展了 ImageNet,每種轉移大約與 ImageNet-1K 本身的大小相當,並且每種轉移都是使用不同的策展策略組合而成。我們通過兩種方式評估我們的資料策展基準:(i) 使用每個訓練數據轉移從頭開始訓練相同的圖像分類模型 (ii) 使用數據本身來擬合預訓練的自監督表示。 我們的研究結果顯示了有趣的趨勢,特別是關於最近的資料策展方法,如合成數據生成和基於 CLIP 嵌入的查找。我們發現,儘管這些策略對於某些任務非常有競爭力,但用於組合原始 ImageNet-1K 數據集的策展策略仍然是黃金標準。我們預計我們的基準測試可以為新方法開闢道路,進一步縮小差距。我們在 https://github.com/jimmyxu123/SELECT 上發布了我們的檢查點、代碼、文檔和數據集鏈接。
在3D環境中合成人類動作,特別是那些包含複雜活動如行走、伸手以及人物與物體互動的場景,對於使用者定義的航點和階段轉換提出了重大需求。這些要求對當前模型構成挑戰,導致在從簡單人類輸入自動化角色動畫方面存在明顯差距。本文通過引入一個全面框架,直接從單一文本指令和目標位置合成多階段場景感知互動動作來應對這一挑戰。我們的方法採用自回歸擴散模型來合成下一個動作片段,並搭配一個自主調度器來預測每個動作階段的轉換。為確保合成的動作能無縫融入環境中,我們提出了一種場景表示,考慮了起點和目標位置的局部感知。我們進一步通過將幀嵌入與語言輸入相結合,增強了生成動作的連貫性。此外,為支持模型訓練,我們提出了一個包含16小時動作序列的運動捕捉數據集,在120個室內場景中涵蓋40種動作類型,每個動作都有精確的語言描述。實驗結果顯示我們的方法在生成與環境和文本條件緊密相關的高質量多階段動作方面的有效性。
從人類反饋中學習的強化學習(RLHF)方法正逐漸成為微調擴散模型(DMs)以進行視覺生成的一種途徑。然而,常用的在策略方法受限於獎勵模型的泛化能力,而離策略方法則需要大量難以獲得的配對人類標註數據,特別是在視覺生成任務中。為了解決在策略和離策略RLHF的限制,我們提出了一種偏好優化方法,該方法通過對齊DMs與偏好而不依賴於獎勵模型或配對的人類標註數據。具體來說,我們引入了一種半策略偏好優化(SePPO)方法。SePPO利用先前的檢查點作為參考模型,同時使用它們生成在策略參考樣本,這些樣本取代了偏好對中的“輸掉的圖像”。這種方法使我們能夠僅使用離策略的“獲勝圖像”進行優化。此外,我們設計了一種參考模型選擇策略,擴展了在策略空間中的探索。值得注意的是,我們並不僅僅將參考樣本視為學習的負面示例。相反,我們設計了一種基於錨點的標準來評估參考樣本是否可能是獲勝或輸掉的圖像,使模型能夠有選擇地從生成的參考樣本中學習。這種方法減輕了由參考樣本質量不確定性引起的性能下降。我們在文本到圖像和文本到視頻基準測試中驗證了SePPO。SePPO在文本到圖像基準測試中超越了所有先前的方法,並在文本到視頻基準測試中表現出色。代碼將在https://github.com/DwanZhang-AI/SePPO 上發布。
擴散模型已經革新了圖像生成,並且將其擴展到視頻生成已經顯示出潛力。然而,目前的視頻擴散模型(VDMs)依賴於在剪輯級別應用的標量時間步變量,這限制了它們對於像圖像到視頻生成這樣的各種任務所需的複雜時間依賴性的建模能力。為了解決這個限制,我們提出了一種框架感知的視頻擴散模型(FVDM),引入了一種新穎的向量化時間步變量(VTV)。與傳統的VDMs不同,我們的方法允許每個幀遵循獨立的噪聲時間表,增強了模型捕捉細粒度時間依賴性的能力。FVDM的靈活性在多個任務中得到展示,包括標準視頻生成、圖像到視頻生成、視頻插值和長視頻合成。通過各種VTV配置的多樣性,我們在生成的視頻質量上取得了優異表現,克服了在微調過程中的災難性遺忘和零樣本方法中有限的泛化能力等挑戰。我們的實證評估表明,FVDM在視頻生成質量方面優於最先進的方法,同時在擴展任務中也表現出色。通過解決現有VDMs的基本缺陷,FVDM在視頻合成中樹立了一個新的範式,為生成建模和多媒體應用帶來了重要影響。
我們介紹了一個在多智能體具體環境中進行指涉表達生成和理解的任務和數據集。在這個任務中,共享場景中的兩個智能體必須考慮彼此的視覺角度,這可能與它們自己的視角不同,以便產生和理解對場景中物體以及它們之間空間關係的指涉。我們收集了一個包含2,970個人類編寫的指涉表達的數據集,每個表達都與人類理解判斷配對,並評估了自動模型作為說話者和聽眾與人類夥伴配對的表現,發現模型在指涉生成和理解方面的表現都落後於人類智能體的配對。最後,我們實驗了訓練一個開放權重的說話者模型,當與一個聽眾配對並表現出溝通成功的證據時,導致溝通成功率從58.9%提高到69.3%,甚至超越了最強的專有模型。
對於流行的企業使用案例,如摘要、RAG和代碼生成等,LLM 推論通常觀察到比生成長度長數量級的提示長度。這種特性導致預填充的高成本和增加的響應延遲。在本文中,我們提出了 SwiftKV,一種新穎的模型轉換和蒸餾程序,專門設計來減少處理提示標記的時間和成本,同時保持生成標記的高質量。SwiftKV 結合了三個關鍵機制:i) SingleInputKV,使用較早層的輸出來預先填充後續層的 KV 快取,使提示標記可以跳過大部分模型計算,ii) AcrossKV,合併相鄰層的 KV 快取以減少內存佔用並支持更大的批量大小以提高吞吐量,以及 iii) 一種保持知識的蒸餾程序,可以以最小的準確性影響和低計算和數據需求將現有的 LLM 調整為 SwiftKV。對於 Llama-3.1-8B 和 70B,SwiftKV 將預填充的計算需求降低了 50%,將 KV 快取的內存需求降低了 62.5%,同時在廣泛的任務範圍內產生最小的質量降級。在使用優化的 vLLM 實現的端到端推理服務中,SwiftKV 實現了高達 2 倍的總吞吐量和每個輸出標記的時間降低了 60%。它可以實現驚人的 560 TFlops/GPU 的標準化推理吞吐量,這對應於在 4x H100 GPU 上以 16 位精度為 Llama-3.1-70B 每秒 16K 標記。