每日精選AI研究論文及翻譯
我們介紹了Florence-2,這是一個新穎的視覺基礎模型,具有統一的基於提示的表示形式,適用於各種計算機視覺和視覺語言任務。雖然現有的大型視覺模型擅長於遷移學習,但在執行各種具有簡單指令的任務時卻遇到困難,這種能力意味著需要處理各種空間層次和語義細節的複雜性。Florence-2被設計為接受文本提示作為任務指令,並生成以文本形式呈現的理想結果,無論是標題、物體檢測、定位還是分割。這種多任務學習設置需要大規模、高質量的標註數據。為此,我們共同開發了FLD-5B,其中包含了對1.26億張圖像進行了54億個全面的視覺標註,使用了自動圖像標註和模型優化的迭代策略。我們採用了序列到序列的結構來訓練Florence-2,以執行多功能和全面的視覺任務。對眾多任務的廣泛評估顯示,Florence-2是一個具有前所未有的零-shot和微調能力的強大視覺基礎模型競爭者。
在開放世界中達到類人般的規劃和控制,對於更功能性的通用型智能體來說是一個重要里程碑。現有方法可以處理開放世界中的某些長視程任務。然而,當開放世界任務的數量可能是無限的時候,它們仍然面臨困難,並且缺乏隨著遊戲時間推移逐步增強任務完成能力的能力。我們介紹了 JARVIS-1,一個能夠感知多模態輸入(視覺觀察和人類指令)、生成複雜計劃並執行體現控制的開放世界智能體,全部在流行但具有挑戰性的開放世界 Minecraft 宇宙中。具體來說,我們在預訓練的多模態語言模型之上開發了 JARVIS-1,該模型將視覺觀察和文本指令映射到計劃中。這些計劃最終將被發送到目標條件控制器。我們為 JARVIS-1 配備了多模態記憶,這有助於使用預訓練知識和實際遊戲生存經驗進行規劃。在我們的實驗中,JARVIS-1 在 Minecraft 宇宙基準測試中展示了幾乎完美的表現,涵蓋了超過 200 個不同難度的任務,從入門級到中級。JARVIS-1 在長視程鑽石鎬任務中實現了 12.5% 的完成率。這相較於先前記錄增加了多達 5 倍,代表了一個顯著的提升。此外,我們展示了 JARVIS-1 能夠遵循終身學習範式自我改進,這得益於多模態記憶,激發了更廣泛的智能和改進的自主性。項目頁面可在 https://craftjarvis-jarvis1.github.io 上找到。
最近幾年,擁有擴散模型的文本轉3D技術取得了顯著進展。然而,現有方法要麼依賴基於分數提煉的優化,這些方法存在推理速度慢、多樣性低和 Janus 問題,要麼是前向傳播方法,由於3D訓練數據稀缺,導致生成的結果質量低。在本文中,我們提出了Instant3D,一種新穎的方法,以前向傳播的方式從文本提示中生成高質量和多樣化的3D資產。我們採用了兩階段範式,首先使用微調的2D文本到圖像擴散模型一次性生成來自文本的四個結構化和一致的稀疏視圖集,然後通過一種新穎的基於Transformer的稀疏視圖重建器直接回歸生成的圖像中的NeRF。通過大量實驗,我們證明我們的方法可以在20秒內生成高質量、多樣化且無Janus問題的3D資產,比之前基於優化的方法快兩個數量級,後者可能需要1到10小時。我們的項目網頁:https://jiahao.ai/instant3d/。
我們介紹了 Lumos,一個用於訓練語言代理的新型框架,採用統一的數據格式和基於開源大型語言模型(LLMs)的模塊化架構。Lumos 包括三個獨立的模塊:規劃、接地和執行。規劃模塊將任務分解為一系列高級、與工具無關的子目標,然後通過接地模塊通過一組低級動作使其具體化。這些動作隨後由執行模塊執行,利用各種現成的工具和API。為了有效訓練這些模塊,收集了高質量的子目標和動作標註,並可用於微調開源LLMs以應對諸如複雜問答、網絡任務和數學問題等各種任務。通過利用這種統一的數據和模塊化設計,Lumos 不僅實現了與當前最先進代理相當或更優越的性能,還表現出幾個關鍵優勢:(1)Lumos 在複雜問答和網絡任務方面超越了基於 GPT-4/3.5 的代理,同時在數學任務上與明顯更大的LLM代理性能相當;(2)Lumos 優於通過傳統訓練方法創建的開源代理和使用思維鏈訓練的代理;以及(3)Lumos 能夠有效地推廣到未見過的互動任務,優於更大的LLM代理,甚至超越專門代理的性能。
大型語言模型(LLMs)在自然語言處理(NLP)等多項任務中表現出色,但大多數開放模型對較小語言的覆蓋範圍非常有限,而且LLM的研究往往集中在那些具有幾乎無限的預訓練數據的語言上。在這項研究中,我們探討了為芬蘭語創建LLMs所面臨的挑戰,芬蘭語是全球人口不到0.1%的人口使用的語言。我們通過整合網絡爬蟲、新聞、社交媒體和電子書等來源,編制了一個龐大的芬蘭語數據集。我們採用兩種方法來預訓練模型:1)我們從頭開始訓練了七個單語模型(從186M到13B參數),命名為FinGPT;2)我們在多語言BLOOM模型上繼續對其原始訓練數據和芬蘭語進行預訓練,得到一個包含1760億參數的模型,我們稱之為BLUUMI。為了評估模型,我們引入了FIN-bench,這是一個具有芬蘭語任務的BIG-bench版本。我們還評估了其他模型質量,如毒性和偏見。我們的模型和工具可以在https://turkunlp.org/gpt3-finnish 公開獲取。
提示工程是優化大型語言模型(LLMs)性能的一項具有挑戰性但至關重要的任務。這需要複雜的推理來檢查模型的錯誤,假設當前提示中缺少或具有誤導性的內容,並清晰地傳達任務。儘管最近的研究表明LLMs可以被元提示以執行自動提示工程,但由於在元提示中缺乏足夠的指導以引發LLMs的複雜推理能力,它們的潛力可能尚未完全發揮。在這項工作中,我們研究了“提示工程提示工程師”的問題,即構建一個更有效引導LLMs執行自動提示工程的元提示。我們介紹並分析了關鍵組件,如逐步推理模板和上下文規範,這些組件導致了性能的改善。此外,受到批量大小、步長和動量等常見優化概念的啟發,我們將它們的口語化對應引入到元提示中並研究它們的影響。我們的最終方法,名為PE2,在MultiArith數據集上比“讓我們逐步思考”提高了6.3%,在GSM8K數據集上提高了3.1%。為了展示其多功能性,我們將PE2應用於指令歸納基準測試、一系列反事實任務以及一個冗長的現實工業提示。在這些設置中,PE2實現了強大的性能並優於先前的自動提示工程基準。此外,我們展示PE2進行有意義且有針對性的提示編輯,修正錯誤或不完整的提示,並展示非平凡的反事實推理能力。
邏輯推理是人類智能的基本要素,也是問題解決和決策等任務的關鍵組成部分。最近的進展使得大型語言模型(LLMs)有可能展現推理能力,但複雜的邏輯推理仍然是一個挑戰。目前最先進的求解器增強語言模型使用LLMs首先解析自然語言的邏輯問題為符號表示,然後採用外部邏輯求解器來處理這些符號表示並輸出答案。儘管它們表現出色,但任何解析錯誤都不可避免地導致外部邏輯求解器執行失敗,無法回答邏輯問題。本文介紹了LoGiPT,一種新型語言模型,直接模擬邏輯求解器的推理過程,並通過學習嚴格遵循求解器語法和規則來避免解析錯誤。LoGiPT在一個新建的指導調整數據集上進行微調,該數據集揭示並完善了演繹求解器隱藏的推理過程。在兩個公開的演繹推理數據集上的實驗結果表明,LoGiPT在競爭性LLMs(如ChatGPT或GPT-4)上優於最先進的求解器增強語言模型和少數提示方法。
大型基礎模型正變得普遍,但從頭開始訓練它們成本過高。因此,將這些強大模型有效地適應下游任務變得日益重要。本文研究了一個有原則的微調範式--正交微調(OFT)--用於下游任務適應。儘管展示出良好的泛化能力,OFT 仍然使用了相當多的可訓練參數,這是由於正交矩陣的高維度所致。為了解決這個問題,我們首先從信息傳輸的角度檢視 OFT,然後確定一些關鍵的期望,以實現更好的參數效率。受 Cooley-Tukey 快速傅立葉變換算法如何實現高效信息傳輸的啟發,我們提出了一種使用蝴蝶結構的高效正交參數化方法。我們將此參數化方法應用於 OFT,創建了一種新的參數效率微調方法,稱為正交蝴蝶(BOFT)。通過將 OFT 納入特例,BOFT 引入了一個泛化的正交微調框架。最後,我們對大型視覺轉換器、大型語言模型和文本到圖像擴散模型進行了廣泛的實證研究,以適應視覺和語言中的各種下游任務。
具有長過濾器的卷積模型在許多長序列任務中展示了最先進的推理能力,但在掛鐘時間上落後於最優化的Transformer。一個主要瓶頸是快速傅立葉變換(FFT)--它允許長卷積在序列長度N上以O(N logN)的時間運行,但硬件利用率較低。在本文中,我們研究如何優化FFT卷積。我們發現兩個關鍵瓶頸:FFT未有效地使用專門的矩陣乘法單元,並且在記憶層次結構之間產生昂貴的I/O。為此,我們提出了FlashFFTConv。FlashFFTConv使用一種計算FFT的矩陣分解,利用矩陣乘法單元並實現長序列的核融合,減少I/O。我們還提出了兩種稀疏卷積算法--1)部分卷積和2)頻率稀疏卷積--可以通過跳過矩陣分解中的塊簡單實現,從而為記憶體和計算節省提供進一步的機會。FlashFFTConv將精確FFT卷積的速度提高了高達7.93倍,超過了PyTorch,並實現了高達4.4倍的端到端加速。在相同的計算預算下,FlashFFTConv使Hyena-GPT-s在PILE上的困惑度提高了2.3個點,使M2-BERT-base的GLUE分數提高了3.3個點--與雙倍參數計數的模型相匹配。FlashFFTConv還在Path-512上實現了96.1%的準確率,這是一個高分辨率視覺任務,之前沒有任何模型能夠達到50%以上的準確率。此外,部分卷積使得更長序列的模型成為可能--產生了第一個可以處理最長人類基因(2.3M個鹼基對)的DNA模型--而頻率稀疏卷積則加速了預訓練模型,同時保持或提高模型質量。
大型語言模型(LLMs)越來越多地用於需要規劃和適應環境的互動決策任務。最近的研究以兩種廣泛的方式使用LLMs作為代理:迭代確定下一步行動(迭代執行者)或使用LLMs生成計劃並執行子任務(計劃和執行)。然而,這些方法在處理任務複雜性時存在困難,因為無法執行任何子任務可能導致任務失敗。為了解決這些缺點,我們引入了針對複雜任務的按需分解和規劃(ADaPT)方法,該方法明確地規劃和分解複雜子任務,即在LLM無法執行時進行。ADaPT遞歸地分解子任務以適應任務複雜性和LLM能力。我們的結果表明,ADaPT在ALFWorld中的成功率高出28.3%,在WebShop中高出27%,在TextCraft中高出33%,這是我們介紹的一個新的組合數據集。通過廣泛的分析,我們說明了多級分解的重要性,並確立了ADaPT根據執行者LLM的能力和任務複雜性動態調整的重要性。
多模式學習的主要挑戰之一是需要結合異質模態(例如視頻、音頻、文本)。例如,視頻和音頻的獲取速率遠高於文本,並且在時間上大致對齊。它們通常與文本不同步,而文本作為全局上下文,例如標題或描述。此外,視頻和音頻輸入的體積要大得多,隨著視頻長度的增加而增加,這自然需要更多的計算資源專門用於這些模態,並使得建模長距離依賴關係變得更加困難。 我們在此將多模式建模解耦,將其分為獨立、專注的自回歸模型,根據模態的特性處理輸入。我們提出了一個名為Mirasol3B的多模式模型,包括一個用於時間同步模態(音頻和視頻)的自回歸組件,以及一個用於上下文模態的自回歸組件,這些模態不一定在時間上對齊,但仍然是順序的。為了應對視頻-音頻輸入的長序列,我們建議進一步將視頻和音頻序列劃分為連續片段,並自回歸地處理它們的表示。為此,我們提出了一個結合機制,該機制在時間範圍內共同建模音頻和視頻信息。結合器學習從原始時空信號中提取音頻和視頻特徵,然後學習融合這些特徵,生成每個片段的緊湊但表達豐富的表示。 我們的方法在眾所周知的多模式基準測試中達到了最先進的水平,勝過了更大的模型。它有效地應對媒體輸入的高計算需求,通過同時學習緊湊表示、控制音頻-視頻特徵表示的序列長度,以及建模它們在時間上的依賴性。
學習特徵交互作用是建立推薦系統的關鍵基礎。在 Web 規模應用中,由於稀疏且龐大的輸入特徵空間,學習特徵交互作用是非常具挑戰性的;與此同時,由於指數級的解決空間,手動創建有效的特徵交互作用是不可行的。我們提議利用基於 Transformer 架構的注意力層來自動捕捉特徵交互作用。Transformer 架構在許多領域取得了巨大成功,如自然語言處理和計算機視覺。然而,在工業界中,Transformer 架構在特徵交互作用建模方面並未得到廣泛應用。我們的目標是彌合這一差距。我們確定將基本的 Transformer 架構應用於 Web 規模推薦系統面臨兩個關鍵挑戰:(1) Transformer 架構無法在自注意力層中捕捉異構特徵交互作用;(2) Transformer 架構的服務延遲可能過高,無法部署在 Web 規模推薦系統中。我們首先提出了異構自注意力層,這是對 Transformer 中自注意力層的一個簡單而有效的修改,以考慮特徵交互作用的異構性。然後引入 Hiformer(異構交互 Transformer)以進一步提高模型的表達能力。通過低秩近似和模型修剪,Hiformer 可以在線部署中享有快速推論。大量離線實驗結果證實了 Hiformer 模型的有效性和效率。我們已成功將 Hiformer 模型部署到 Google Play 的真實大規模應用排名模型中,關鍵參與度指標顯著提升(最高達 +2.66%)。
密集預測任務,如語義分割、深度估計和表面法向預測,可以輕鬆地被定義為每像素分類(離散輸出)或回歸(連續輸出)。這種每像素預測範式由於完全卷積網絡的普及而保持流行。然而,在分割任務的最新前沿上,社群目睹了從每像素預測轉向到集群預測的範式轉變,這是由於變壓器架構的出現,特別是遮罩變壓器,它直接為遮罩預測標籤而不是像素。儘管存在這種轉變,仍然基於每像素預測範式的方法主導著需要連續輸出的其他密集預測任務的基準測試,例如深度估計和表面法向預測。受到 DORN 和 AdaBins 在深度估計中通過離散化連續輸出空間取得成功的啟發,我們提出將基於集群預測的方法概括到一般密集預測任務。這使我們能夠將密集預測任務與遮罩變壓器框架統一起來。值得注意的是,所得到的模型 PolyMaX 在 NYUD-v2 數據集的三個基準測試中展現了最先進的性能。我們希望我們簡單而有效的設計可以激發更多關於如何利用遮罩變壓器進行更多密集預測任務的研究。代碼和模型將可用。
最近,Transformer 模型在電腦視覺任務中得到廣泛應用。然而,由於自注意力的二次時間和記憶體複雜度與輸入 token 數量成正比,大多數現有的 Vision Transformers (ViTs) 在實際工業部署場景(如 TensorRT 和 CoreML)中遇到了效能不高的挑戰,傳統的 CNN 在這些場景中表現優異。儘管一些最近的嘗試設計了 CNN-Transformer 混合架構來應對這個問題,但整體表現並未達到預期。為了應對這些挑戰,我們提出了一種名為 FMViT 的高效混合 ViT 架構。這種方法通過混合高頻特徵和低頻特徵,並具有不同頻率,增強了模型的表達能力,使其能夠有效地捕捉局部和全局信息。此外,我們引入了部署友好的機制,如 Convolutional Multigroup Reparameterization (gMLP)、Lightweight Multi-head Self-Attention (RLMHSA) 和 Convolutional Fusion Block (CFB),進一步提高了模型的性能並減少了計算開銷。我們的實驗表明,FMViT 在各種視覺任務的延遲/準確性折衷方面超越了現有的 CNN、ViTs 和 CNN-Transformer 混合架構。在 TensorRT 平台上,FMViT 在 ImageNet 數據集的 top-1 準確性方面比 Resnet101 高出 2.5%(83.3% vs. 80.8%),同時保持類似的推理延遲。此外,FMViT 在推理速度上與 EfficientNet-B5 的表現相當,但推理速度提高了 43%。在 CoreML 上,FMViT 在 ImageNet 數據集的 top-1 準確性方面比 MobileOne 高出 2.6%,並且推理延遲與 MobileOne 相當(78.5% vs. 75.9%)。我們的程式碼可在 https://github.com/tany0699/FMViT 找到。