HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

6 papers found

Transformer 是 SSMs：通用模型和高效演算法通過結構化狀態空間對偶。
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

May 31

ByTri Dao, Albert Gu

儘管Transformer一直是深度學習在語言建模方面取得成功的主要架構，但最近顯示出狀態空間模型（SSMs）如Mamba在小到中等規模上能夠與Transformer匹敵甚至超越。我們展示這些模型家族實際上非常相關，並發展了一個豐富的理論連接框架，將SSMs與注意力變體之間的各種分解通過一類經過深入研究的結構半可分離矩陣相連。我們的狀態空間對偶（SSD）框架使我們能夠設計一種新的架構（Mamba-2），其核心層是Mamba選擇性SSM的改進版本，速度提高2-8倍，同時在語言建模方面繼續與Transformer保持競爭力。

Video-MME：多模式LLM在視頻分析中的首個全面評估基準。
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

May 31

ByChaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun

在追求人工通用智能的過程中，多模式大型語言模型（MLLMs）已成為近期進展的焦點。然而，主要關注仍然集中在發展它們在靜態圖像理解方面的能力上。MLLMs在處理序列視覺數據方面的潛力仍未得到充分探索，突顯了對其性能缺乏全面、高質量評估的不足。本文介紹了Video-MME，這是首個全譜多模式評估基準，用於MLLMs在視頻分析中。我們的工作通過四個關鍵特點與現有基準有所區別：1）視頻類型的多樣性，涵蓋了6個主要視覺領域，30個子領域，以確保廣泛的場景泛化性；2）時間維度的持續性，包括短、中、長期視頻，從11秒到1小時不等，以應對強大的情境動態；3）數據模態的廣度，整合了除視頻幀外的多模式輸入，包括字幕和音頻，以揭示MLLMs的全面能力；4）標註的質量，利用專家標註者進行嚴格手動標註，以促進精確可靠的模型評估。我們手動選擇了900個視頻，總計256小時，並通過反复觀看所有視頻內容進行標註，結果產生了2700個問答對。通過Video-MME，我們廣泛評估了各種最先進的MLLMs，包括GPT-4系列和Gemini 1.5 Pro，以及像InternVL-Chat-V1.5和LLaVA-NeXT-Video這樣的開源圖像模型和視頻模型。我們的實驗顯示Gemini 1.5 Pro是表現最佳的商業模型，明顯優於開源模型。我們的數據集以及這些發現強調了在處理更長序列和多模式數據方面進一步改進的必要性。項目頁面：https://video-mme.github.io

困惑於困惑：基於困惑度的小型參考模型數據修剪
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

May 30

ByZachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul

在這項研究中，我們探討小型語言模型是否能夠確定大規模文本數據集的高質量子集，從而提高較大語言模型的性能。儘管現有研究表明，基於較大模型的困惑度進行修剪可以產生高質量數據，我們研究了較小模型是否可以用於基於困惑度的修剪，以及修剪如何受到正在被修剪的數據的領域組成的影響。我們證明對於多個數據集組成，基於困惑度的預訓練數據修剪可以顯著提高下游任務的性能：基於使用一億兩千五百萬參數模型計算的困惑度進行修剪，可以將三十億參數模型在下游任務的平均性能提高高達 2.04 倍，並實現預訓練步驟減少高達 1.45 倍以達到相應的基準性能。此外，我們證明，基於困惑度的數據修剪還可以在過度訓練和數據受限制的情況下提高下游性能。

Kaleido Diffusion：透過自回歸潛在建模改進條件擴散模型
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

May 31

ByJiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind

擴散模型已成為從文字描述生成高質量圖像的強大工具。儘管取得成功，這些模型在採樣圖像時往往表現出有限的多樣性，特別是在使用高分類器自由引導權重進行採樣時。為解決此問題，我們提出了Kaleido，一種通過整合自回歸潛在先驗來增強樣本多樣性的新方法。Kaleido整合了一個自回歸語言模型，將原始標題編碼並生成潛在變量，作為引導和促進圖像生成過程的抽象和中介表示。在本文中，我們探索了各種離散潛在表示，包括文字描述、檢測邊界框、對象區塊和視覺標記。這些表示多樣化並豐富了輸入條件到擴散模型，從而實現更多樣化的輸出。我們的實驗結果表明，Kaleido有效地擴大了從給定文字描述生成的圖像樣本的多樣性，同時保持高質量圖像。此外，我們展示了Kaleido緊密遵循生成的潛在變量提供的引導，展示了其有效控制和指導圖像生成過程的能力。

4Diffusion：多視角視頻擴散模型用於4D生成
4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31

ByHaiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao

目前的4D生成方法借助先進的擴散生成模型已經取得顯著的效能。然而，這些方法缺乏多視角時空建模，並在整合來自多個擴散模型的不同先前知識方面遇到挑戰，導致時間外觀不一致和閃爍問題。在本文中，我們提出了一種新穎的4D生成流程，名為4Diffusion，旨在從單眼視頻生成時空一致的4D內容。我們首先設計了一個針對多視角視頻生成量身定制的統一擴散模型，通過將可學習的運動模塊納入凍結的3D感知擴散模型中，來捕捉多視角時空相關性。在經過精心策劃的數據集訓練後，我們的擴散模型獲得了合理的時間一致性，並固有地保留了3D感知擴散模型的泛化能力和空間一致性。隨後，我們提出了基於我們的多視角視頻擴散模型的4D感知分數蒸餾抽樣損失，以優化由動態NeRF參數化的4D表示。這旨在消除來自多個擴散模型的差異，從而實現生成時空一致的4D內容。此外，我們設計了一個錨損失來增強外觀細節並促進動態NeRF的學習。廣泛的定性和定量實驗表明，我們的方法相對於先前的方法取得了優異的性能。

記憶效率網絡訓練的4位元洗髮水
4-bit Shampoo for Memory-Efficient Network Training

May 28

BySike Wang, Jia Li, Pan Zhou, Hua Huang

二階優化器在理論和實踐中均優於一階優化器，其維護一個被稱為預條件器的矩陣。構成預條件器及其逆根的狀態限制了二階優化器訓練模型的最大尺寸。為解決這個問題，將32位元優化器狀態壓縮為較低位元寬度已顯示出減少內存使用的潛力。然而，目前的方法僅適用於一階優化器。在本文中，我們提出首個4位元二階優化器，以4位元Shampoo為例，其性能與32位元優化器相似。我們展示，在4位元Shampoo中量化預條件器的特徵向量矩陣在理論和實驗上均比量化預條件器本身更為出色。通過糾正量化特徵向量矩陣的正交性，我們增強了對預條件器特徵向量矩陣的逼近，這也有助於計算其逆四次根。此外，我們發現，在量化二階優化器狀態時，線性平方量化略優於動態樹量化。對於各種用於圖像分類的網絡進行評估表明，我們的4位元Shampoo在實現可比的測試準確性的同時更節省內存。源代碼將提供。

Video-MME：多模式LLM在視頻分析中的首個全面評估基準。
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

May 31