每日精選AI研究論文及翻譯
本文介紹了採用階層式全域至本地建模的區塊Transformer架構,以減輕自迴歸Transformer的推論瓶頸。為了應用自注意力,必須在每個解碼步驟從記憶中檢索所有先前序列的關鍵-值(KV)快取。因此,這個KV快取IO在批次推論中成為一個重要瓶頸。我們注意到這些成本源於對全域上下文應用自注意力,因此我們將全域建模的昂貴瓶頸隔離到較低層,並在較高層應用快速本地建模。為了減輕較低層中剩餘的成本,我們將輸入標記聚合成固定大小的區塊,然後在這個粗粒度層次應用自注意力。上下文信息被聚合成單一嵌入,使得上層能夠解碼下一個標記區塊,而無需全域注意力。摆脱全域注意力瓶颈后,上层可以充分利用計算硬件,以最大化推理吞吐量。通過利用全域和本地模塊,區塊Transformer架構展示了與等效困惑度的普通Transformer相比10-20倍的推理吞吐量增益。我們的工作通過新的全域至本地建模應用,引入了一種優化語言模型推理的新方法。代碼可在https://github.com/itsnamgyu/block-transformer找到。
多模式大型語言模型(MLLMs)如GPT-4V的快速發展標誌著人工通用智能邁出了重要一步。現有方法主要集中在通過監督微調(SFT)將視覺編碼器與LLMs對齊,賦予LLMs多模式能力,使得MLLMs對多種語言的固有反應能力隨著訓練過程的演進逐漸惡化。我們實證發現,SFT數據集存在不平衡,主要由以英語為中心的圖像-文本對組成,導致非英語語言的表現顯著降低。這是由於在SFT過程中未能將視覺編碼器和LLM與多語言標記對齊所致。本文介紹了Parrot,一種利用文本指導在語言級別驅動視覺標記對齊的新方法。Parrot使視覺標記依賴於多樣的語言輸入,並使用專家混合(MoE)來促進多語言標記的對齊。具體來說,為了增強非英語視覺標記的對齊,我們使用初始視覺特徵和文本嵌入計算交叉注意力,其結果被餵入MoE路由器以選擇最相關的專家。所選專家隨後將初始視覺標記轉換為特定語言的視覺標記。此外,考慮到目前缺乏用於評估領域內多語言能力的基準,我們收集並提供了一個包含6種語言、15個類別和12,000個問題的大規模多語言多模式基準測試集,名為MMMB。我們的方法不僅在多語言MMBench和MMMB上展示了最先進的性能,還在各種多模式任務中表現優異。Parrot的源代碼和訓練數據集將公開提供。
移動裝置操作任務正日益成為一個受歡迎的多模式人工智慧應用場景。目前的多模式大型語言模型(MLLMs),受其訓練數據的限制,缺乏有效地作為操作助手的能力。相反,基於MLLM的代理通過工具調用來增強功能,逐漸應用於此場景。然而,在移動裝置操作任務中存在的兩個主要導航挑戰,即任務進度導航和焦點內容導航,在現有工作的單一代理架構下變得顯著複雜。這是由於過長的令牌序列和交錯的文本-圖像數據格式,這些限制了性能。為了有效應對這些導航挑戰,我們提出了Mobile-Agent-v2,這是一種用於移動裝置操作輔助的多代理架構。該架構包括三個代理:規劃代理、決策代理和反思代理。規劃代理生成任務進度,使歷史操作的導航更加高效。為了保持焦點內容,我們設計了一個隨著任務進度更新的記憶單元。此外,為了糾正錯誤操作,反思代理觀察每個操作的結果並相應處理任何錯誤。實驗結果表明,Mobile-Agent-v2相較於Mobile-Agent的單一代理架構,在任務完成方面實現了超過30%的改善。代碼已在https://github.com/X-PLUG/MobileAgent上開源。
現有的單張圖像轉3D創建方法通常涉及兩階段過程,首先生成多視圖圖像,然後使用這些圖像進行3D重建。然而,分開訓練這兩個階段會導致推理階段存在顯著的數據偏差,從而影響重建結果的質量。我們引入了一個統一的3D生成框架,名為Ouroboros3D,它將基於擴散的多視圖圖像生成和3D重建整合到一個遞歸擴散過程中。在我們的框架中,這兩個模塊通過自我條件機制聯合訓練,使它們能夠適應彼此的特徵以進行強大的推理。在多視圖去噪過程中,多視圖擴散模型使用由重建模塊在前一時間步渲染的3D感知地圖作為額外條件。具有3D感知反饋的遞歸擴散框架統一了整個過程並改善了幾何一致性。實驗表明,我們的框架優於將這兩個階段分開以及現有方法在推理階段結合它們的方法。項目頁面:https://costwen.github.io/Ouroboros3D/
Transformer 迅速成為音頻分類的首選,超越基於 CNN 的方法。然而,音頻頻譜 Transformer (ASTs) 由於自注意機制而呈現二次擴展。消除這種二次自注意成本呈現出一個吸引人的方向。最近,狀態空間模型 (SSMs),如 Mamba,在語言和視覺任務中展示了潛力。在這項研究中,我們探討自注意對音頻分類任務是否必要。通過引入 Audio Mamba (AuM),這是第一個無自注意、純粹基於 SSM 的音頻分類模型,我們旨在解決這個問題。我們在各種音頻數據集上評估 AuM - 包括六個不同的基準測試 - 在這些測試中,AuM 與成熟的 AST 模型相比實現了可比或更好的性能。
版面生成是實現自動化平面設計的關鍵,需要以視覺上令人愉悅且遵循約束的方式安排各種多模式設計元素的位置和大小。先前的方法要麼對於大規模應用效率低下,要麼缺乏對不同設計需求的靈活性。我們的研究引入了一個統一的框架,用於自動化平面版面生成,利用多模式大語言模型(MLLM)來滿足各種設計任務。相比之下,我們的數據驅動方法採用結構化文本(JSON格式)和視覺指令調整,以在特定視覺和文本約束下生成版面,包括用戶定義的自然語言規範。我們進行了廣泛的實驗,在公共多模式版面生成基準測試中取得了最先進的表現,展示了我們方法的有效性。此外,鑑於現有數據集在捕捉現實世界平面設計複雜性方面的局限性,我們提出了兩個新的數據集,用於更具挑戰性的任務(用戶約束生成和複雜的海報),進一步驗證了我們模型在實際應用中的效用。這種方法以其卓越的可訪問性和適應性,進一步自動化了大規模平面設計任務。代碼和數據集將在https://github.com/posterllava/PosterLLaVA 上公開提供。
先前的研究已經展示了使用生成式語言模型在透過神經音訊編解碼器獲取的音訊標記上實現零-shot文本轉語音。然而,將它們適應於低延遲情境仍然具有挑戰性。在本文中,我們提出了LiveSpeech - 一種基於完全自回歸語言模型的零-shot文本轉語音方法,實現輸出音訊的低延遲串流。為了在單個解碼步驟中允許多個標記預測,我們提出了(1)使用考慮每個幀中碼簿貢獻並專注於困難實例的自適應碼簿損失權重,以及(2)將碼簿分組並並行處理群組。實驗顯示我們提出的模型在內容準確性、語者相似度、音訊品質和推理速度方面實現了與最先進基準的競爭結果,同時適用於低延遲串流應用。
在影片傳播模型方面取得的重大進展為文本到影片(T2V)合成領域帶來了顯著進步。然而,現有的T2V合成模型在準確生成複雜運動動態方面存在困難,導致影片的真實感降低。一種可能的解決方案是收集大量數據並對模型進行訓練,但這將非常昂貴。為了緩解這個問題,在本文中,我們重新制定了典型的T2V生成過程,將其作為基於搜索的生成流程。我們不是擴大模型訓練,而是利用現有影片作為運動先驗數據庫。具體來說,我們將T2V生成過程分為兩個步驟:(i)對於給定的提示輸入,我們搜索現有的文本-影片數據集,找到與提示運動密切匹配的帶有文本標籤的影片。我們提出了一種定制的搜索算法,強調物體運動特徵。(ii)檢索到的影片被處理並提煉為運動先驗,以微調預訓練的基礎T2V模型,然後使用輸入提示生成所需的影片。通過利用從搜索到的影片中獲取的先驗,我們增強了生成影片運動的真實感。所有操作都可以在一個單獨的NVIDIA RTX 4090 GPU上完成。我們對各種提示輸入的方法進行了與最先進的T2V模型的驗證。代碼將會公開。
從人類反饋中學習的強化學習(RLHF)對於大型語言模型(LLMs)最近的成功至關重要,然而,這往往是一個複雜且脆弱的過程。在傳統的RLHF框架中,首先訓練一個獎勵模型來代表人類偏好,然後由在線強化學習(RL)算法使用該模型來優化LLM。這種方法的一個突出問題是獎勵過度優化或獎勵破解,即通過學習的代理獎勵模型來衡量的性能提高,但真實質量達到平穩甚至惡化。直接對齊算法(DDAs)如直接偏好優化已經成為傳統RLHF流程的替代方案,通過避開獎勵建模階段。然而,儘管DDAs不使用單獨的代理獎勵模型,它們仍常常因過度優化而惡化。雖然對於DDAs來說所謂的獎勵破解現象並不明確,我們仍然發現類似的趨勢:在較高的KL預算下,DAA算法展現出與其傳統RLHF對應物相似的惡化模式。特別是,我們發現DAA方法不僅在各種KL預算範圍內惡化,而且通常甚至在數據集完成一個時期之前就出現惡化。通過大量的實證實驗,本研究對DDAs的獎勵過度優化或破解問題進行了制定和形式化,並探討了其在目標、訓練制度和模型規模上的後果。
大型語言模型(LLMs)在複雜對話理解、推理和編碼等任務上取得了極大成功,這要歸功於它們的新興能力。這些新興能力已通過多模態擴展,包括圖像、音頻和視頻功能。另一方面,推薦系統對於信息尋找和物品發現需求至關重要。最近,人們開始嘗試將LLMs應用於推薦系統。目前嘗試的一個困難是,基礎LLM通常未在推薦系統數據上進行訓練,該數據主要包含用戶交互信號,並且通常不公開。另一個困難是,用戶交互信號通常與自然語言文本具有不同的模式,目前尚不清楚LLM訓練設置是否能夠從交互信號中學習到比傳統推薦系統方法更多的非平凡知識。最後,訓練多個LLMs用於不同用例,並在從推薦系統數據中學習時保留原始語言和推理能力是困難的。為了解決這三個限制,我們提出了一種項目語言模型(ILM),它由一個項目編碼器和一個凍結的LLM組成。項目編碼器用於生成與文本對齊的項目表示,編碼用戶交互信號,而凍結的LLM則能夠理解這些項目表示,並保留預訓練知識。我們進行了大量實驗,這些實驗既證明了語言對齊的重要性,也證明了項目編碼器中用戶交互知識的重要性。
大型語言模型(LLMs)展現了在各種任務中令人印象深刻的能力,然而其龐大的參數規模限制了它們在資源受限環境中的應用。知識蒸餾(KD)通過將大型教師模型的專業知識轉移給緊湊的學生模型,提供了一個可行的解決方案。然而,傳統的知識蒸餾技術在應用於LLMs時面臨特定挑戰,包括對LLM輸出的受限訪問、顯著的教師-學生容量差距以及遺傳的錯誤校準問題。在這項工作中,我們提出了PLaD,一個新穎的基於偏好的LLM蒸餾框架。PLaD利用教師-學生容量差異生成偽偏好對,其中教師輸出優於學生輸出。然後,PLaD利用排名損失來重新校準學生對序列可能性的估計,這將引導學生將焦點放在理解輸出的相對質量上,而不僅僅是模仿教師。PLaD避免了需要訪問教師LLM內部狀態的需求,解決了學生表達能力的限制問題,並緩解了學生的錯誤校準問題。通過對兩個序列生成任務以及多個LLMs進行廣泛實驗,我們展示了我們提出的PLaD框架的有效性。
我們介紹了 Xmodel-LM,一個緊湊高效的 1.1B 語言模型,預先訓練了超過 2 兆個標記。Xmodel-LM 是在我們自建的數據集(Xdata)上訓練的,該數據集根據下游任務優化平衡了中文和英文語料庫。儘管體積較小,Xmodel-LM 展現出卓越的性能,顯著超越了現有規模相似的開源語言模型。我們的模型檢查點和代碼可在 GitHub 上公開訪問,網址為 https://github.com/XiaoduoAILab/XmodelLM。