每日精選AI研究論文及翻譯
我們提出了第一個模型竊取攻擊,可以從黑盒製作的語言模型(如OpenAI的ChatGPT或Google的PaLM-2)中提取精確且非平凡的信息。具體來說,我們的攻擊可以在典型的API訪問情況下,恢復一個Transformer模型的嵌入投影層(在對稱性上)。以不到20美元的成本,我們的攻擊可以提取OpenAI的Ada和Babbage語言模型的整個投影矩陣。我們首次確認這些黑盒模型分別具有1024和2048的隱藏維度。我們還恢復了gpt-3.5-turbo模型的確切隱藏維度大小,並估計成本不到2,000個查詢即可恢復整個投影矩陣。最後,我們提出潛在的防禦和緩解方法,並討論可能擴展我們攻擊的未來工作的影響。
近年來大型語言模型的最新進展為世界帶來了巨大價值,其卓越能力源於其所利用的龐大參數數量。然而,即使是目前記憶體容量最高的 GPU,目前峰值為 80GB,仍遠遠不足以容納這些龐大參數及其相關的優化器狀態,當進行基於隨機梯度下降的優化時。一種容納這種龐大模型的方法是從多個 GPU 聚合設備記憶體。然而,這種方法對於大多數學術研究人員來說成本過高,他們總是對許多高端 GPU 伺服器的預算有限。本文專注於在商品伺服器上單個、甚至低端 GPU 上進行龐大模型微調,這對大多數 AI 研究人員來說是可訪問的。在這種情況下,最先進的 ZeRO-Infinity 在商品伺服器上運行時存在兩個嚴重問題:1) 由於效率低下的交換,GPU 利用率低,以及 2) 由於 CPU 記憶體容量有限,可訓練模型大小受限。其根本原因是 ZeRO-Infinity 經過優化以在高端 GPU 伺服器上運行。為此,我們提出了一個低成本的訓練框架 Fuyou,可以實現在低端伺服器上的低端 GPU 和有限 CPU 記憶體容量上高效進行 100B 龐大模型微調。其關鍵思想是將 SSD-CPU 通信作為一個優化維度,因此從系統化方法中精心協同優化計算和數據交換,以最大程度地提高 GPU 利用率。實驗結果表明:1) Fuyou 能夠在消費 GPU RTX 4090 上高效微調 175B GPT-3,而 ZeRO-Infinity 則無法進行微調;以及 2) 在訓練小型 GPT-3 13B 模型時,Fuyou 在 RTX 4090 GPU 上實現 156 TFLOPS,而 ZeRO-Infinity 僅實現 45 TFLOPS。
為了應對影片理解中的本地冗餘和全局依賴這兩大挑戰,本研究創新地將 Mamba 技術應用於影片領域。所提出的 VideoMamba 克服了現有的 3D 卷積神經網絡和影片變壓器的局限性。其具有線性複雜度的運算子實現了高效的長期建模,這對於高分辨率長影片理解至關重要。廣泛的評估揭示了 VideoMamba 的四大核心能力:(1) 在視覺領域中的可擴展性,無需進行大量數據集預訓練,這要歸功於一種新穎的自我蒸餾技術;(2) 對於識別短期動作具有敏感性,即使存在細微運動差異;(3) 在長期影片理解方面具有卓越性,展示出明顯優於傳統基於特徵的模型的進展;以及 (4) 與其他模態的兼容性,展示了在多模態情境中的穩健性。通過這些獨特優勢,VideoMamba 為影片理解設立了新的基準,提供了一個可擴展且高效的全面影片理解解決方案。所有代碼和模型均可在 https://github.com/OpenGVLab/VideoMamba 上獲得。
自動3D生成最近引起廣泛關注。最近的方法極大加速了生成速度,但通常由於模型容量有限或3D數據不足而產生較少細節的物體。受到視頻擴散模型最新進展的啟發,我們引入了V3D,利用預先訓練的視頻擴散模型的世界模擬能力來促進3D生成。為了充分發揮視頻擴散對感知3D世界的潛力,我們進一步引入了幾何一致性先驗,並將視頻擴散模型擴展為多視角一致的3D生成器。通過這一方法,最先進的視頻擴散模型可以進行微調,以生成環繞物體的360度軌道幀,只需一張圖像。通過我們量身定制的重構流程,我們可以在3分鐘內生成高質量網格或3D高斯模型。此外,我們的方法可以擴展到場景級別的新視角合成,實現對相機路徑的精確控制,並使用稀疏輸入視圖。大量實驗證明了所提方法在生成質量和多視角一致性方面的卓越性能。我們的代碼可在https://github.com/heheyas/V3D找到。
在這項研究中,我們識別了大視覺語言模型(LVLMs)中的注意力效率問題,尤其是在知名模型如LLaVA-1.5、QwenVL-Chat和Video-LLaVA中。我們發現在流行的LVLMs的深層中,對視覺標記的注意力計算非常低效,這表明相較於處理文本數據,需要採用更為疏密的方法。為此,我們引入了FastV,一種多功能即插即用方法,旨在通過在早期層學習適應性注意力模式並在後續層修剪視覺標記,從而優化計算效率。我們的評估顯示,FastV能夠顯著降低計算成本(例如,對於LLaVA-1.5-13B,FLOPs減少45),同時在各種圖像和視頻理解任務中不會犧牲性能。FastV的計算效率和性能折衷是高度可定製和帕累托有效的。它可以壓縮一個13B參數模型的FLOPs,實現比7B參數模型更低的預算,同時仍保持優越的性能。我們相信FastV在邊緣設備和商業模型中部署LVLMs具有實際價值。代碼已發布在https://github.com/pkunlp-icler/FastV。
我們研究了自深度學習出現以來,用於預訓練語言模型的演算法改善速度。利用跨越2012年至2023年的超過200個Wikitext和Penn Treebank語言模型評估數據集,我們發現達到一定性能閾值所需的計算量大約每8個月減半一次,95%的置信區間約為5至14個月,遠快於摩爾定律下的硬體增長。我們估計了擴增的縮放定律,這使我們能夠量化演算法進展並確定模型縮放與訓練演算法創新之間的相對貢獻。儘管演算法進展迅速且出現了新的架構,如Transformer,但我們的分析顯示,計算量的增加在這段時間內對整體性能改進的貢獻更大。儘管受到嘈雜的基準數據的限制,我們的分析量化了語言建模的快速進展,闡明了計算量和演算法對相對貢獻的情況。
Sora 的出現標誌著文本到視頻擴散模型的新時代,帶來了視頻生成和潛在應用方面的重大進展。然而,Sora 和其他文本到視頻擴散模型高度依賴提示,並且目前沒有公開可用的數據集包含對文本到視頻提示的研究。本文介紹了 VidProM,這是第一個包含來自真實用戶的 1.67 百萬個獨特文本到視頻提示的大規模數據集。此外,該數據集還包括由四種最先進的擴散模型生成的 669 萬個視頻以及一些相關數據。我們首先展示了這一大規模數據集的策劃過程,這是一個耗時且昂貴的過程。接著,我們展示了所提出的 VidProM 如何與 DiffusionDB 進行了比較,後者是一個用於圖像生成的大規模提示庫數據集。通過對這些提示的分析,我們確定了專門為文本到視頻生成設計的新提示數據集的必要性,並深入了解了真實用戶在創建視頻時的偏好。我們的大規模且多樣化的數據集還激發了許多令人興奮的新研究領域。例如,為了開發更好、更高效、更安全的文本到視頻擴散模型,我們建議探索文本到視頻提示工程、高效視頻生成以及擴散模型的視頻拷貝檢測。我們將收集的數據集 VidProM 在 GitHub 和 Hugging Face 上以 CC-BY-NC 4.0 許可證公開發布。
擴散模型相對容易訓練,但需要許多步驟來生成樣本。一致性模型則難以訓練,但可以在單一步驟中生成樣本。 在本文中,我們提出多步一致性模型:將一致性模型(Song等,2023年)和TRACT(Berthelot等,2023年)統一起來,可以在一致性模型和擴散模型之間進行插值:在取樣速度和取樣質量之間取得平衡。具體來說,1步一致性模型是傳統的一致性模型,而我們展示了∞步一致性模型是擴散模型。 多步一致性模型在實踐中表現非常出色。通過將樣本預算從單一步驟增加到2-8步,我們可以更輕鬆地訓練出生成更高質量樣本的模型,同時保留了很大部分的取樣速度優勢。值得注意的結果是在8步中Imagenet 64上達到1.4的FID,以及在8步中Imagenet128上達到2.1的FID並使用一致性蒸餾。我們還展示了我們的方法可以擴展到文本到圖像擴散模型,生成的樣本非常接近原始模型的質量。
最近,基於主題驅動的生成技術引起了廣泛關注,因為它能夠個性化文本到圖像的生成。典型的研究著重於學習新主題的私有屬性。然而,一個重要的事實沒有得到足夠重視,即主題並不是一個孤立的新概念,而應該是預先訓練模型中某個類別的特化。這導致主題無法全面繼承其類別中的屬性,導致屬性相關生成品質不佳。本文受物件導向編程啟發,將主題建模為一個衍生類別,其基礎類別是其語義類別。這種建模使主題能夠從其類別中繼承公共屬性,同時從用戶提供的示例中學習其私有屬性。具體來說,我們提出了一種即插即用的方法,名為主題衍生正則化(SuDe)。通過將主題驅動生成的圖像限制為語義上屬於主題類別,來構建基礎衍生類別建模。在各種主題上進行的大量實驗,基於三個基準和兩個骨幹,顯示我們的 SuDe 能夠實現具想像力的屬性相關生成,同時保持主題的忠實性。代碼將很快在 FaceChain(https://github.com/modelscope/facechain)上開源。