每日精選AI研究論文及翻譯
本研究介紹了一種有效的方法,用於將基於Transformer的大型語言模型(LLMs)擴展到無限長的輸入,並限制記憶體和計算。我們提出方法的關鍵組成部分是一種名為Infini-attention的新型注意力技術。Infini-attention將一種壓縮記憶體引入到基本注意力機制中,並在單個Transformer塊中結合了遮罩本地注意力和長期線性注意力機制。我們在長文本語言建模基準、100萬序列長度的密碼鎖定內容檢索和50萬長度的書籍摘要任務上展示了我們方法的有效性,使用10億和80億個LLMs。我們的方法引入了最小的有界記憶體參數,並實現了LLMs的快速流式推理。
大型語言模型(LLMs)取得了顯著的成就,但其日益增長的資源需求已成為發展強大且易於存取的超人類智能的主要障礙。本報告介紹了JetMoE-8B,一個新的LLM,僅用不到0.1百萬美元進行訓練,使用了來自精心混合的開源語料庫的1.25T令牌和30,000 H100 GPU小時。儘管成本低廉,JetMoE-8B展現了令人印象深刻的性能,JetMoE-8B的表現優於Llama2-7B模型,而JetMoE-8B-Chat超越了Llama2-13B-Chat模型。這些結果表明,LLM的訓練可以比一般認為的更具成本效益。JetMoE-8B基於高效的稀疏門控專家混合(SMoE)架構,由注意力和前饋專家組成。兩層均稀疏激活,使得JetMoE-8B具有8B參數,而每個輸入令牌僅激活2B,相較於Llama2-7B,推理計算減少約70%。此外,JetMoE-8B高度開放且友好於學術界,僅使用公共數據集和訓練代碼。本報告詳細說明了所有訓練參數和數據混合,以促進未來在開放基礎模型發展方面的努力。透明度的目的是鼓勵合作並在可存取和高效的LLMs領域取得進一步進展。模型權重可在https://github.com/myshell-ai/JetMoE 公開獲取。
在長文本語言模型(LM)的評估中,「大海捞针」(NIAH)測試被廣泛採用,該測試檢驗檢索長文本(「大海」)中的信息片段(「針」)的能力。然而,這種簡單的基於檢索的測試僅表明了一種表面形式的長文本理解。為了更全面地評估長文本LM,我們創建了一個新的合成基準RULER,具有靈活的配置,可定制序列長度和任務複雜度。RULER擴展了普通的NIAH測試,包括各種類型和數量的針的變化。此外,RULER引入了新的任務類別多跳追踪和聚合,以測試超出從上下文搜索的行為。我們在RULER中對十個長文本LM進行了13個代表性任務的評估。儘管在普通的NIAH測試中實現了幾乎完美的準確性,但所有模型在上下文長度增加時都表現出明顯的性能下降。儘管這些模型都聲稱具有32K令牌或更多的上下文大小,但只有四個模型(GPT-4、Command-R、Yi-34B和Mixtral)能夠在32K的長度上保持令人滿意的性能。我們對支持200K上下文長度的Yi-34B進行的分析顯示,在增加輸入長度和任務複雜度時,還有很大的改進空間。我們開源RULER以促進對長文本LM的全面評估。
我們介紹了RealmDreamer,一種從文字描述生成通用前向3D場景的技術。我們的技術優化了一個3D高斯Splatting表示,以匹配複雜的文字提示。我們通過利用最先進的文本到圖像生成器來初始化這些splat,將它們提升到3D,並計算遮蔽體積。然後,我們將這種表示優化到多個視角,作為一個帶有圖像條件擴散模型的3D修補任務。為了學習正確的幾何結構,我們通過在修補模型的樣本上進行條件化,將深度擴散模型納入其中,提供豐富的幾何結構。最後,我們使用來自圖像生成器的銳化樣本對模型進行微調。值得注意的是,我們的技術不需要視頻或多視圖數據,可以合成各種風格的高質量3D場景,包括多個物體。其通用性還允許從單張圖像進行3D合成。
我們分析了預先訓練的大型語言模型(例如Llama2、GPT-4、Claude 3等)在提供上下文示例時,在沒有額外訓練或梯度更新的情況下,能夠進行線性和非線性回歸的表現。我們的研究發現,一些大型語言模型(例如GPT-4、Claude 3)能夠執行回歸任務,其表現與傳統監督方法(如隨機森林、Bagging或梯度提升)不相上下,甚至表現更好。例如,在具有挑戰性的Friedman#2回歸數據集上,Claude 3的表現優於許多監督方法,如AdaBoost、支持向量機(SVM)、隨機森林、K最近鄰(KNN)或梯度提升。然後,我們研究了大型語言模型的表現如何隨著上下文示例數量的增加而提升。我們借鑒了在線學習中的遺憾概念,並從實證角度表明,大型語言模型能夠獲得次線性的遺憾。
視覺語言模型(VLMs)通常由視覺編碼器(例如CLIP)和一個語言模型(LM)組成,該模型解釋編碼特徵以解決下游任務。儘管取得了顯著進展,但由於視覺編碼器的能力有限,VLMs存在一些缺點,例如對某些圖像特徵的“盲點”、視覺幻覺等。為了解決這些問題,我們研究擴展VLMs的視覺編碼能力。我們首先全面評估了幾個具有不同歸納偏見的視覺編碼器,以解決VLM任務。我們觀察到沒有單一的編碼配置能夠在不同任務中始終達到最佳性能,並且具有不同偏見的編碼器可以表現出令人驚訝的相似性。受此啟發,我們引入了一種名為BRAVE的方法,將多個凍結編碼器的特徵整合成更多功能的表示形式,可以直接作為凍結LM的輸入。BRAVE在各種標題生成和視覺問答基準測試中實現了最先進的性能,顯著減少了VLMs的上述問題,同時比現有方法需要更少的可訓練參數並具有更緊湊的表示形式。我們的結果突顯了將不同的視覺偏見納入VLMs以獲得更廣泛和情境化的視覺理解潛力。
隨著對虛擬實境應用的需求不斷增加,突顯了打造身臨其境的3D資產的重要性。我們提出了一種文本轉3D 360度場景生成流程,有助於在野外環境中快速創建全面的360度場景。我們的方法利用2D擴散模型的生成能力和即時自我精煉,創建高質量且全局一致的全景圖像。這個圖像作為初步的“平面”(2D)場景表示。隨後,通過將其提升為3D高斯模型,採用點陣技術實現實時探索。為了生成一致的3D幾何結構,我們的流程通過將2D單眼深度對齊為全局優化的點雲,構建了一個空間一致的結構。這個點雲作為3D高斯模型的中心的初始狀態。為了解決單視圖輸入固有的不可見問題,我們對合成和輸入相機視圖施加語義和幾何約束作為規範。這些約束指導高斯模型的優化,有助於重建不可見區域。總之,我們的方法提供了一個全局一致的360度視角內的3D場景,相較於現有技術,提供了更加豐富的身臨其境體驗。項目網站:http://dreamscene360.github.io/
本研究探討解碼器專用的Transformer,如LLaMA,最初是為大型語言模型(LLMs)而設計的,是否可以適應計算機視覺領域。我們首先逐步將標準的ViT進行“LLaMA化”,以符合LLaMA的架構,發現直接將隨機遮罩應用於自注意力會導致注意力崩潰問題,進而導致網絡訓練失敗。我們建議將類別標記重新定位到圖像標記後面,採用後序列類別標記技術來克服這一挑戰,從而使因果自注意力能夠有效地捕捉整個圖像的信息。此外,我們開發了一種軟遮罩策略,逐步在訓練開始時引入隨機遮罩到自注意力中,以促進優化行為。定制的模型,被稱為圖像LLaMA(iLLaMA),在架構上類似於LLaMA,並實現直接監督學習。其因果自注意力提升了計算效率,通過提升注意力圖的排名來學習複雜表示。iLLaMA與其僅具編碼器的對應物性能相媲美,僅使用5.7M參數即實現了75.1%的ImageNet top-1精度。將模型擴展至約310M並在ImageNet-21K上進行預訓練進一步提高了精度至86.0%。大量實驗證明了iLLaMA的可靠性特性:校準、形狀-紋理偏差、量化兼容性、ADE20K分割和CIFAR轉移學習。我們希望我們的研究能在LLMs浪潮中點燃對視覺模型設計的新看法。預訓練模型和代碼可在此處獲得。
現有的音訊理解資料集主要專注於單輪互動(例如音訊字幕、音訊問答),用自然語言描述音訊,從而限制了透過互動對話理解音訊。為彌補這一不足,我們引入了「音訊對話」:一個包含163.8k樣本的多輪對話資料集,涵蓋一般音效和音樂。除了對話外,音訊對話還包含問答配對,以理解和比較多個輸入音訊。音訊對話採用基於提示的方法,利用現有資料集的字幕標註,使用大型語言模型(LLM)生成多輪對話。我們在我們提出的資料集上評估現有的音訊增強型大型語言模型,以展示音訊對話的複雜性和應用性。我們的生成資料集的程式碼將公開提供。詳細的提示和生成的對話可在示範網站https://audiodialogues.github.io/上找到。
最近預訓練基礎視覺語言模型的成功使得開放詞彙分割(OVS)成為可能。儘管這種方法表現出令人期待的性能,但卻引入了兩個挑戰所帶來的沉重計算負擔:1)骨幹模型的巨大尺寸;2)微調過程中的昂貴成本。這些挑戰阻礙了這種OVS策略在現實場景中被廣泛應用並且負擔得起。儘管傳統方法如模型壓縮和高效微調可以應對這些挑戰,但它們常常依賴於經驗法則。這意味著它們的解決方案不能輕易轉移,並需要在不同模型上重新訓練,這將帶來成本。在高效OVS的背景下,我們的目標是通過利用訓練成本較低的較小模型,實現與基於大型視覺語言基礎模型的先前OVS作品相當甚至更好的性能。核心策略是使我們的效率合理化,因此可以毫不費力地從一個OVS框架順利轉移到其他框架,而無需進一步定制。對多樣的OVS基準進行全面實驗,展示了我們在分割準確性和計算成本之間取得的優越折衷,勝過先前的作品。我們的程式碼可在 https://github.com/Xujxyang/OpenTrans 上找到。