AI研究論文每日精選

每日精選AI研究論文及翻譯

LongRoPE：將LLM上下文窗口擴展至超過2百萬個標記
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Feb 21

ByYiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

116

大範圍的上下文窗口是大型語言模型（LLMs）中一個理想的特徵。然而，由於高昂的微調成本、長文本的稀缺性以及新標記位置引入的災難性值，目前擴展的上下文窗口僅限於約128k個標記。本文介紹了LongRoPE，首次將預訓練的LLMs的上下文窗口擴展到令人印象深刻的2048k個標記，僅需在256k的訓練長度內進行最多1k次微調步驟，同時保持原始短上下文窗口的性能。這是通過三項關鍵創新實現的：（i）我們識別並利用兩種位置插值中的非均勻性形式，通過高效搜索提供更好的微調初始化，並實現非微調情況下的8倍擴展；（ii）我們引入了一種漸進擴展策略，首先微調256k長度的LLM，然後對微調後的擴展LLM進行第二次位置插值，實現2048k上下文窗口；（iii）我們對8k長度的LongRoPE進行調整，以恢復短上下文窗口的性能。在LLaMA2和Mistral上進行的大量實驗顯示了我們方法的有效性。通過LongRoPE擴展的模型保留了原始架構，僅對位置嵌入進行了輕微修改，並且可以重用大多數現有的優化。

YOLOv9：使用可程式化梯度資訊學習想要學習的內容
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Feb 21

ByChien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao

當今的深度學習方法著重於如何設計最適當的目標函數，以使模型的預測結果最接近真實情況。同時，必須設計一個合適的架構，以便獲取足夠的信息進行預測。現有方法忽略了一個事實，即當輸入數據經過逐層特徵提取和空間轉換時，將會丟失大量信息。本文將深入探討數據在通過深度網絡傳輸時的重要問題，即信息瓶頸和可逆函數。我們提出了可編程梯度信息（PGI）的概念，以應對深度網絡實現多目標所需的各種變化。PGI可以為目標任務提供完整的輸入信息，以計算目標函數，從而獲得可靠的梯度信息來更新網絡權重。此外，我們設計了一種新的輕量級網絡架構——通用高效層聚合網絡（GELAN），基於梯度路徑規劃。GELAN的架構證實了PGI在輕量級模型上取得了優異結果。我們在 MS COCO 數據集上的目標檢測中驗證了所提出的 GELAN 和 PGI。結果顯示，GELAN僅使用傳統卷積運算符，實現了比基於深度卷積的最先進方法更好的參數利用率。PGI可用於各種模型，從輕量級到大型模型均可使用。它可用於獲取完整信息，使得從頭開始訓練的模型可以取得比基於大型數據集預訓練的最先進模型更好的結果，比較結果請參見圖1。源代碼位於：https://github.com/WongKinYiu/yolov9。

Aria日常活動數據集
Aria Everyday Activities Dataset

Feb 20

ByZhaoyang Lv, Nickolas Charron, Pierre Moulon, Alexander Gamino, Cheng Peng, Chris Sweeney, Edward Miller, Huixuan Tang, Jeff Meissner, Jing Dong, Kiran Somasundaram, Luis Pesqueira, Mark Schwesinger, Omkar Parkhi, Qiao Gu, Renzo De Nardi, Shangyi Cheng, Steve Saarinen, Vijay Baiyya, Yuyang Zou, Richard Newcombe, Jakob Julian Engel, Xiaqing Pan, Carl Ren

我們介紹Aria Everyday Activities (AEA) 資料集，這是一個以Project Aria眼鏡記錄的主觀多模式開放資料集。AEA 包含了在五個地理多樣的室內地點中由多位佩戴者記錄的143個日常活動序列。每個記錄都包含透過Project Aria眼鏡記錄的多模式感應器數據。此外，AEA 提供機器感知數據，包括高頻全球對齊的3D軌跡、場景點雲、每幀的3D眼神矢量和時間對齊的語音轉錄。在本文中，我們展示了這個資料集所啟用的一些範例研究應用，包括神經場景重建和提示分割。AEA 是一個開源資料集，可從projectaria.com 下載。我們還提供了在Project Aria Tools中使用該資料集的開源實現和示例。

SDXL-Lightning：漸進式對抗擴散蒸餾
SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Feb 21

ByShanchuan Lin, Anran Wang, Xiao Yang

我們提出了一種擴散蒸餾方法，基於SDXL，在一步/幾步 1024px 文本到圖像生成中實現了新的最先進技術。我們的方法結合了漸進式和對抗式蒸餾，以實現質量和模式覆蓋之間的平衡。在本文中，我們討論了理論分析、鑑別器設計、模型公式和訓練技術。我們將我們蒸餾的SDXL-Lightning模型以LoRA和完整的UNet權重的形式開源。

Snap Video：用於文本到視頻合成的尺度空時轉換器
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

Feb 22

ByWilli Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov

當前用於生成影像的模型展現出卓越的品質和多功能性。受到這些優勢的影響，研究界將其重新運用於生成影片。由於影片內容高度冗餘，我們認為將影像模型的進展天真地帶入影片生成領域會降低動態保真度、視覺品質並影響可擴展性。在這項工作中，我們建立了 Snap Video，這是一個以影片為先的模型，系統性地應對這些挑戰。為此，我們首先擴展了 EDM 框架，以考慮空間和時間上的冗餘像素，並自然地支持影片生成。其次，我們發現 U-Net - 影像生成背後的得力工具 - 在生成影片時擴展效果不佳，需要大量的計算開銷。因此，我們提出了一種基於 Transformer 的新架構，訓練速度比 U-Net 快 3.31 倍（推論速度快約 4.5 倍）。這使我們能夠高效地訓練具有數十億參數的文本到影片模型，首次在多個基準測試中達到最先進的結果，並生成具有顯著更高品質、時間一致性和運動複雜性的影片。用戶研究顯示，我們的模型在很大程度上優於最新方法。請參閱我們的網站：https://snap-research.github.io/snapvideo/。

使用者LLM：具有使用者嵌入的高效LLM情境化
User-LLM: Efficient LLM Contextualization with User Embeddings

Feb 21

ByLin Ning, Luyang Liu, Jiaxing Wu, Neo Wu, Devora Berlowitz, Sushant Prakash, Bradley Green, Shawn O'Banion, Jun Xie

大型語言模型（LLMs）已經徹底改變了自然語言處理。然而，有效地整合複雜且可能帶有噪音的用戶互動數據仍然是一個挑戰。為了應對這一問題，我們提出了User-LLM，這是一個新穎的框架，利用用戶嵌入來將LLMs置於上下文中。這些嵌入是通過自監督預訓練從各種用戶互動中提煉出來的，捕捉了潛在的用戶偏好以及隨時間演變的情況。我們通過交叉注意力和軟提示將這些用戶嵌入與LLMs集成，使LLMs能夠動態適應用戶上下文。我們在MovieLens、Amazon Review和Google Local Review數據集上進行了全面的實驗，展示了在各種任務上顯著的性能提升。值得注意的是，我們的方法在長序列任務和需要深入了解用戶的任務上優於基於文本提示的情境化方法，同時保持了計算效率。我們進一步將Perceiver層整合到用戶編碼器和LLMs之間，以簡化集成，降低計算需求。

在深度強化學習中，一個經過修剪的網絡是一個好的網絡。
In deep reinforcement learning, a pruned network is a good network

Feb 19

ByJohan Obando-Ceron, Aaron Courville, Pablo Samuel Castro

最近的研究顯示，深度強化學習代理程序在有效利用其網絡參數方面存在困難。我們利用先前對於稀疏訓練技術優勢的洞察，證明逐漸減少大小的修剪使代理程序能夠最大化參數的效能。這導致網絡產生比傳統網絡更顯著的性能改進，並展現出一種“擴展定律”，僅使用完整網絡參數的一小部分。

強迫語言模型執行並揭示（幾乎）所有內容
Coercing LLMs to do and reveal (almost) anything

Feb 21

ByJonas Geiping, Alex Stein, Manli Shu, Khalid Saifullah, Yuxin Wen, Tom Goldstein

最近的研究表明，對大型語言模型（LLMs）進行對抗性攻擊可以將模型“越獄”，使其發出有害陳述。在這項工作中，我們認為對LLMs的對抗性攻擊範疇遠不僅僅是越獄。我們提供了對可能的攻擊表面和攻擊目標的廣泛概述。基於一系列具體示例，我們討論、分類並系統化了那些強迫產生各種意外行為的攻擊，例如誤導、模型控制、拒絕服務或數據提取。我們在受控實驗中分析這些攻擊，發現其中許多源於使用具有編碼能力的預訓練LLMs的實踐，以及常見LLM詞彙表中應出於安全考量而移除的奇怪“故障”標記的持續存在。

通過時間變化的擴散模型反演進行音樂風格轉移。
Music Style Transfer with Time-Varying Inversion of Diffusion Models

Feb 21

BySifei Li, Yuxin Zhang, Fan Tang, Chongyang Ma, Weiming dong, Changsheng Xu

隨著擴散模型的發展，文本引導的圖像風格轉移展示了高質量的可控合成結果。然而，利用文本進行多樣音樂風格轉移在實踐中面臨著重大挑戰，主要是由於匹配音頻-文本數據集的有限可用性。音樂作為一種抽象且複雜的藝術形式，即使在同一流派內也呈現出變化和細微之處，這使得準確的文本描述具有挑戰性。本文提出了一種音樂風格轉移方法，能夠使用最少的數據有效地捕捉音樂特徵。我們引入了一個新穎的時間變化的文本反演模塊，以精確捕捉不同級別的mel-spectrogram特徵。在推斷過程中，我們提出了一種減少偏差的風格化技術，以獲得穩定的結果。實驗結果表明，我們的方法可以轉移特定樂器的風格，並將自然聲音融入到旋律中。樣本和源代碼可在https://lsfhuihuiff.github.io/MusicTI/找到。

待辦事項：標記下採樣以有效生成高分辨率圖像
ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

Feb 21

ByEthan Smith, Nayan Saxena, Aninda Saha

注意機制對於影像擴散模型至關重要，然而，其二次計算複雜度限制了我們在合理時間和記憶體限制內能夠處理的影像尺寸。本文探討了在生成式影像模型中密集注意力的重要性，這些模型通常包含冗餘特徵，使它們適合於更稀疏的注意機制。我們提出了一種新穎的無需訓練的方法 ToDo，該方法依賴於關鍵和值標記的標記降採樣，以加速穩定擴散推論，對於常見尺寸可提升至2倍，對於高分辨率如2048x2048可提升至4.5倍或更多。我們展示了我們的方法在平衡高效通量和保真度方面優於先前的方法。

BBA：用於與大型視覺語言模型推理的雙模態行為對齊
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

Feb 21

ByXueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong

多模態推理是大視覺語言模型（LVLMs）的關鍵能力。與特定領域語言（DSL）集成，提供精確的視覺表示，使這些模型有機會在複雜和專業領域中執行更準確的推理。然而，基本的思維鏈（CoT）提示方法在有效利用視覺和DSL表示的獨特優勢方面面臨挑戰，主要是由於它們不同的推理機制。此外，在處理多步推理任務中的關鍵步驟時，它通常表現不佳。為了克服這些挑戰，我們引入了雙模態行為對齊（BBA）提示方法，旨在最大程度地發揮DSL在增強複雜多模態推理任務中的潛力。該方法開始引導LVLMs為視覺和DSL表示創建獨立的推理鏈。隨後，通過解決任何不一致之處，將這些鏈進行對齊，從而實現來自不同模態的行為的統一集成。我們的實驗表明，BBA顯著提高了GPT-4V（ision）在幾何問題解決（從28.34%到34.22%）、棋局優勢預測（從42.08%到46.99%）和分子性質預測（從77.47%到83.52%）方面的性能。

D-Flow：通過流動進行控制生成
D-Flow: Differentiating through Flows for Controlled Generation

Feb 21

ByHeli Ben-Hamu, Omri Puny, Itai Gat, Brian Karrer, Uriel Singer, Yaron Lipman

在無需重新訓練特定任務模型的情況下，控制最先進的擴散和流匹配（FM）模型生成結果的能力，為解決反問題、有條件生成以及一般控制生成提供了一個強大的工具。在這項工作中，我們介紹了D-Flow，一個簡單的框架，通過對流進行微分，優化源（噪聲）點來控制生成過程。我們通過關鍵觀察來推動這個框架，該觀察指出，對於使用高斯概率路徑訓練的擴散/FM模型，通過生成過程進行微分會將梯度投影到數據流形上，從而將先驗隱式注入到優化過程中。我們在線性和非線性控制生成問題上驗證了我們的框架，包括：圖像和音頻反問題以及有條件的分子生成，在所有問題上均達到了最先進的性能。

Ouroboros：具有大型模型增強起草的推理解碼
Ouroboros: Speculative Decoding with Large Model Enhanced Drafting

Feb 21

ByWeilin Zhao, Yuxiang Huang, Xu Han, Chaojun Xiao, Zhiyuan Liu, Maosong Sun

草擬-驗證解碼方法，如猜測性解碼，是廣泛採用的無需訓練的方法，用於加速大型語言模型（LLMs）的推理。與使用自回歸過程來按順序解碼標記不同，猜測性解碼首先使用高效的小型模型創建草稿。然後，LLMs需要以非自回歸方式進行驗證和修正，以最小化時間開銷。生成較長的草稿一旦經過驗證，可以導致更顯著的加速，但如果失敗，也會產生相當大的試誤成本。由於高驗證失敗概率的影響，現有的解碼方法無法一次為驗證起草太多內容，從而達不到最佳的推理加速。在本文中，我們介紹了Ouroboros，它從LLMs的驗證過程中構建短語候選池，為小型模型的草稿生成提供候選。因此，Ouroboros可以進一步提高初始草稿的效率和有效性。對典型文本生成任務的實驗結果顯示，Ouroboros相對於預視解碼和猜測性解碼，實現了高達1.9倍和2.8倍的加速。Ouroboros的源代碼可在https://github.com/thunlp/Ouroboros找到。

AI研究論文每日精選

每日精選AI研究論文及翻譯

LongRoPE：將LLM上下文窗口擴展至超過2百萬個標記
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Feb 21

ByYiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

116