每日精選AI研究論文及翻譯
我們介紹了Kosmos-2,一個多模式大型語言模型(MLLM),使其能夠感知物件描述(例如,邊界框)並將文本與視覺世界相關聯的新能力。具體來說,我們將指代表達式表示為Markdown中的連結,即``[文本範圍](邊界框)'',其中物件描述是位置標記的序列。我們與多模式語料庫一起,構建了大規模的基於圖像-文本配對的數據(稱為GrIT)來訓練模型。除了MLLM的現有功能(例如,感知一般模態、遵循指示和執行上下文學習)之外,Kosmos-2將基於地面化能力整合到下游應用中。我們在廣泛的任務上評估了Kosmos-2,包括(i)多模式基礎,如指代表達理解和短語基礎,(ii)多模式指代,如指代表達生成,(iii)感知-語言任務,以及(iv)語言理解和生成。這項工作為具有具體表現的人工智能的發展奠定了基礎,並為語言、多模式感知、行動和世界建模的大融合提供了啟示,這是通往人工通用智能的關鍵一步。數據、演示和預訓練模型可在https://aka.ms/kosmos-2 上獲得。
隨著預訓練大型語言模型的進展,建立一個統一的模型,用於語言和其他多模態數據(如動作)的探索,至今仍具有挑戰性且未被觸及。幸運的是,人類動作展現出一種類似於人類語言的語義耦合,常被視為一種身體語言形式。通過將語言數據與大規模動作模型融合,可以實現能夠增強與動作相關任務表現的動作-語言預訓練。基於這一見解,我們提出了MotionGPT,一個統一、多功能且用戶友好的動作-語言模型,用於處理多個與動作相關的任務。具體來說,我們採用離散向量量化來處理人類動作,將3D動作轉換為動作標記,類似於單詞標記的生成過程。基於這個“動作詞彙”,我們以統一的方式對動作和文本進行語言建模,將人類動作視為一種特定語言。此外,受提示學習的啟發,我們使用動作-語言數據的混合來預訓練MotionGPT,並在基於提示的問答任務上進行微調。大量實驗表明,MotionGPT在多個動作任務上取得了最先進的表現,包括基於文本的動作生成、動作字幕生成、動作預測和動作中間插值。
精確且可控的影像編輯是一項具有挑戰性的任務,吸引了相當大的關注。最近,DragGAN 實現了一個互動式基於點的影像編輯框架,並以像素級的精確度取得了令人印象深刻的編輯結果。然而,由於該方法基於生成對抗網路(GAN),其通用性受到預先訓練的 GAN 模型容量的上限限制。在這項工作中,我們將這種編輯框架擴展到擴散模型,並提出了 DragDiffusion。通過利用大規模預先訓練的擴散模型,我們大大提高了互動式基於點的編輯在現實場景中的應用性。儘管大多數現有的基於擴散的影像編輯方法是針對文本嵌入進行的,DragDiffusion 優化了擴散潛在以實現精確的空間控制。雖然擴散模型以迭代方式生成影像,但我們在實驗中顯示,優化擴散潛在在單一步驟上就足以生成連貫的結果,使得 DragDiffusion 能夠高效完成高質量的編輯。在廣泛的具有挑戰性案例(例如多對象、不同對象類別、各種風格等)上進行的大量實驗展示了 DragDiffusion 的多功能性和通用性。
分割任務模型(SAM)是一種受提示引導的視覺基礎模型,用於從背景中切割出感興趣的物體。自從 Meta 研究團隊發布了 SA 項目以來,SAM 因其卓越的零樣本轉移性能和與其他模型兼容的高度多功能性而受到了重視,可用於像具有精細控制的圖像編輯等高級視覺應用。許多此類用例需要在資源受限的邊緣設備上運行,如移動應用程式。在這項工作中,我們的目標是通過用輕量級圖像編碼器替換笨重的圖像編碼器,使 SAM 適合移動設備。按照原始 SAM 論文中訓練這種新 SAM 的天真方式會導致令人不滿的性能,特別是當訓練資源有限時。我們發現,這主要是由圖像編碼器和遮罩解碼器的耦合優化引起的,基於這一點,我們提出了解耦蒸餾。具體而言,我們從原始 SAM 中的圖像編碼器 ViT-H 中提煉知識到一個輕量級圖像編碼器,該編碼器可以自動與原始 SAM 中的遮罩解碼器兼容。訓練可以在一天內在單個 GPU 上完成,結果得到的輕量級 SAM 被稱為 MobileSAM,體積縮小了 60 多倍,但性能與原始 SAM 相當。對於推理速度,MobileSAM 每張圖像運行約 10 毫秒:圖像編碼器為 8 毫秒,遮罩解碼器為 2 毫秒。具有卓越性能和更高多功能性,我們的 MobileSAM 比同時的 FastSAM 體積小 7 倍,速度快 4 倍,更適合移動應用。MobileSAM 項目的代碼可在 https://github.com/ChaoningZhang/MobileSAM 上找到。
儘管大型語言模型(LLMs)最近取得了令人印象深刻的成就,但在部署上仍然成本高昂,特別是對於涉及長內容生成的應用,如對話系統和故事撰寫。通常,除了模型參數外,還會在 GPU 記憶體中存儲大量瞬態狀態信息,稱為 KV 快取,其與序列長度和批次大小呈線性關係。本文介紹了一種實現 KV 快取的新方法,顯著減少了其記憶體佔用量。我們的方法基於一個引人注目的觀察,即在計算注意力分數時,一小部分標記貢獻了大部分價值。我們稱這些標記為重要標記(H_2)。通過全面調查,我們發現(i)H_2 的出現是自然的,並與文本中標記的頻繁共現密切相關,以及(ii)刪除它們將導致顯著的性能下降。基於這些見解,我們提出了重要標記預測(H_2O),一種 KV 快取淘汰策略,動態保留最近和 H_2 標記的平衡。我們將 KV 快取淘汰定義為一個動態次模模問題,並證明(在溫和的假設下)我們的新淘汰算法具有理論保證,這有助於指導未來的工作。我們通過 OPT、LLaMA 和 GPT-NeoX 在各種任務上驗證了我們算法的準確性。我們實現的含有 20% 重要標記的 H_2O 比三個領先的推理系統 DeepSpeed Zero-Inference、Hugging Face Accelerate 和 FlexGen 的吞吐量提高了高達 29 倍、29 倍和 3 倍,分別在 OPT-6.7B 和 OPT-30B 上。在相同的批次大小下,H2O 可將延遲降低高達 1.9 倍。代碼可在 https://github.com/FMInference/H2O 找到。
目前預訓練具備能力的大型語言模型(LLMs)的最新趨勢主要集中在模型和數據集大小的擴展上。然而,預訓練數據的質量對於訓練強大的LLMs是一個重要因素,但這是一個尚未完全表徵的模糊概念。因此,我們使用最近提出的Task2Vec多樣性係數來確立和理解數據質量的形式方面,以超越單純的規模。具體來說,我們測量公開可用的預訓練數據集的多樣性係數,以證明它們的形式多樣性與理論下限和上限相比是高的。此外,為了建立對多樣性係數的信心,我們進行解釋性實驗,並發現該係數符合多樣性的直觀特性,例如,隨著潛在概念數量的增加而增加。我們得出結論,多樣性係數是可靠的,顯示其在公開可用的LLM數據集中很高,並推測它可以用於構建對LLMs有用的多樣性數據集。
在實際和理論機器學習中的一個核心概念是弱學習器,即在任何給定的數據分佈上實現優於隨機性能的分類器,即使只有一點點。這些弱學習器形成了經典機器學習方法的實際基礎,如 boosting。在這項工作中,我們說明基於提示的大型語言模型可以有效地作為這種弱學習器。具體來說,我們展示了在應用於表格數據的 boosting 算法中,使用大型語言模型(LLM)作為弱學習器。我們展示了通過提供(根據感興趣的分佈正確抽樣的)表格數據樣本的文本描述,LLMs 可以生成樣本摘要,作為分類的模板並實現作為該任務上的弱學習器的目的。我們將這些模型融入 boosting 方法,某些情況下可以利用 LLM 內部的知識來優於傳統基於樹的 boosting。該模型在某些情況下優於少樣本學習,甚至有時甚至優於更複雜的微調程序,特別是對涉及少量數據點的任務。結果說明了基於提示的 LLMs 不僅可以作為少樣本學習者本身,還可以作為更大機器學習管道的組件。
基於多樣數據集訓練的大型Transformer模型展現了在上下文中學習的卓越能力,實現了高few-shot性能,即在未明確訓練解決的任務上表現出色。本文研究了Transformer在決策問題中的上下文學習能力,即強化學習(RL)用於樂觀機制和馬可夫決策過程。為此,我們引入並研究了決策預訓練Transformer(DPT),這是一種監督預訓練方法,其中Transformer在給定查詢狀態和上下文互動數據集的情況下預測最優行動,跨越多樣任務。儘管此過程簡單,但產生了一個具有幾個令人驚訝能力的模型。我們發現預訓練Transformer可以用於解決一系列RL問題,展示出線上探索和線下保守性,儘管未明確訓練為此目的。該模型還可以推廣到預訓練分佈之外的新任務,並自動適應其對未知結構的決策策略。從理論上講,我們展示了DPT可以被視為貝葉斯後驗採樣的高效實現,這是一種經證明具有高樣本效率的RL算法。我們進一步利用這種聯繫,對DPT產生的上下文算法的後悔提供保證,並證明它可以比用於生成預訓練數據的算法更快地學習。這些結果表明了在Transformer中灌輸強大的上下文決策能力的一條有前途但簡單的途徑。
現代深度學習必不可少的是大規模數據集。支持者主張,理解這些方法需要數據集的透明度(例如“數據集的編輯、動機、組成、收集過程等”)。然而,幾乎沒有人建議公開發布提供給標註者的詳細定義和視覺類別示例 - 這些信息對於理解每個數據集中標註結構至關重要。這些標籤是公共數據集的核心,但很少有數據集包含用於生成它們的指示。我們提出了一個新任務,標籤指示生成,以解決缺失的公開可用標籤指示。在標籤指示生成中,我們採用一個合理標註的數據集並:1)生成一組在數據集中每個類別中具有視覺代表性的示例;2)為每個示例提供對應的文本標籤。我們引入了一個框架,無需模型訓練即可解決此任務,並包括一個新創建的快速檢索系統,利用一個大型、預先訓練的視覺和語言模型。這個框架充當人類標註者的代理,可以幫助生成最終的標籤指示集並評估其質量。我們的框架生成了數據集類別的多個多樣的視覺和文本表示。優化的指示集在NuImages上比我們最強基線高出7.06 mAP,在COCO上高出12.9 mAP,跨5次折疊。
通用預訓練模型("基礎模型")使從業者能夠利用比從頭開始學習所需數據集小得多的數據集,為個別機器學習問題提供通用解決方案。這些模型通常在大型和多樣化的數據集上進行訓練,具有弱監督,消耗比任何單個下游應用可用的訓練數據多得多。在本文中,我們描述了視覺導航Transformer(ViNT),這是一個旨在將通用預訓練模型的成功帶入基於視覺的機器人導航的基礎模型。ViNT訓練時採用通用目標達成目標,可與任何導航數據集一起使用,並採用靈活的基於Transformer的架構來學習導航功能,實現對各種下游導航任務的有效適應。ViNT在許多現有導航數據集上進行訓練,包括來自各種不同機器人平台的數百小時機器人導航,表現出積極的轉移效果,優於在單一數據集上訓練的專家模型。ViNT可以通過基於擴散的子目標提案進行擴展,以探索新的環境,並且在配備長程啟發式時,可以解決公里級導航問題。ViNT還可以通過一種受提示調整啟發的技術適應新的任務規範,其中目標編碼器被替換為嵌入到相同目標令牌空間的另一任務模態(例如,GPS路徑點或路由命令的編碼)。這種靈活性和適應各種下游問題領域的能力確立了ViNT作為移動機器人的有效基礎模型。有關視頻、代碼和模型檢查點,請參見我們的項目頁面:https://visualnav-transformer.github.io。
儘管多模式任務取得了令人鼓舞的進展,但目前的大型多模式模型(LMM)容易出現與相關圖像和人類指示不一致的描述幻覺。本文通過引入第一個大型且多樣化的視覺指示調整數據集,名為大規模穩健視覺(LRV)-指示,來解決這個問題。我們的數據集包含由GPT4生成的 120k 個視覺指示,涵蓋 16 個以開放式指示和答案為特色的視覺與語言任務。與現有研究主要聚焦於正面指示樣本不同,我們設計了 LRV-指示,以包含正面和負面指示,以實現更穩健的視覺指示調整。我們的負面指示在兩個語義層面上進行設計:(i)不存在元素操作和(ii)存在元素操作。為了有效衡量LMM產生的幻覺,我們提出了GPT4輔助視覺指示評估(GAVIE),這是一種新方法,可評估視覺指示調整,無需人工標註的真實答案,並且能夠適應各種指示格式。我們進行了全面的實驗來研究LMM的幻覺現象。我們的結果表明,現有的LMM在面對我們的負面指示時會出現顯著的幻覺,特別是在存在元素操作指示中。此外,通過在LRV-指示上對MiniGPT4進行微調,我們成功地減輕了幻覺,同時在使用比最先進方法更少的訓練數據的情況下提高了在公共數據集上的性能。此外,我們觀察到在訓練數據中正負實例的平衡比例導致了更穩健的模型。我們的項目鏈接可在 https://fuxiaoliu.github.io/LRV/ 上找到。
人類在複雜的長期軟體操作任務中表現出色,透過靈活的工具使用:烘培麵包需要用刀切割麵團,用擀麵棍擀平。被視為人類認知的標誌,自主機器人中的工具使用仍然受限於理解工具-物體互動的挑戰。在這裡,我們開發了一個智能機器人系統 RoboCook,它能感知、建模和操作具有不同工具的彈塑性物體。RoboCook 使用點雲場景表示,用圖神經網絡 (GNNs) 建模工具-物體互動,並結合工具分類與自監督策略學習來制定操作計劃。我們展示,通過僅僅 20 分鐘的真實世界互動數據,一臺通用機器人手臂可以學會複雜的長期軟體物體操作任務,例如製作餃子和字母曲奇餅乾。廣泛的評估顯示,RoboCook 顯著優於最先進的方法,具有抵抗嚴重外部干擾的穩健性,並展現對不同材料的適應能力。
去噪擴散概率模型(DDPMs)已被證明在大量數據訓練時能夠合成高質量且具有卓越多樣性的圖像。典型的擴散模型和現代大規模條件生成模型,如文本到圖像生成模型,在極度有限的數據上微調時容易過度擬合。現有研究已經探索使用包含少量圖像的參考集進行主題驅動生成。然而,很少有先前的研究探索基於DDPM的面向領域的生成,其目的是學習目標領域的共同特徵並保持多樣性。本文提出了一種新穎的DomainStudio方法,將在大規模源數據集上預先訓練的DDPMs適應到使用有限數據的目標領域。它旨在保持源領域提供的主題多樣性,並在目標領域中獲得高質量和多樣化的適應樣本。我們建議保持適應樣本之間的相對距離,以實現相當大的生成多樣性。此外,我們進一步增強了對高頻細節的學習,以提高生成質量。我們的方法與無條件和有條件的擴散模型兼容。這項工作首次嘗試實現使用擴散模型進行無條件少樣本圖像生成,實現了比當前最先進的基於GAN方法更好的質量和更大的多樣性。此外,這項工作還顯著減輕了有條件生成的過度擬合,實現了高質量的面向領域生成,進一步擴展了現代大規模文本到圖像模型的應用場景。
大規模文本到圖像擴散模型顯著提升了生成圖像建模的最新技術水平,並允許直觀且強大的用戶界面來驅動圖像生成過程。使用文本表達空間限制,例如將特定物件放置在特定位置,使用文本來說很繁瑣;目前基於文本的圖像生成模型無法準確遵循此類指示。本文考慮從與圖像畫布上的區段相關聯的文本生成圖像,這結合了直觀的自然語言界面與對生成內容的精確空間控制。我們提出ZestGuide,一種零樣本分割引導方法,可插入預先訓練的文本到圖像擴散模型中,並且無需額外訓練。它利用可以從交叉注意力層中提取的隱式分割地圖,並使用它們來對齊生成與輸入遮罩。我們的實驗結果結合了高質量的圖像與生成內容與輸入分割的準確對齊,從定量和定性上均優於先前的工作,包括需要在具有相應分割的圖像上進行訓練的方法。與Paint with Words相比,這是先前在使用零樣本分割條件進行圖像生成的最新技術水平,我們在COCO數據集上的mIoU分數相似的情況下提高了5到10個百分點。
涉及解決微分方程的生成過程,例如擴散模型,通常需要在速度和質量之間取得平衡。基於常微分方程(ODE)的取樣器速度快,但性能達到瓶頸,而基於隨機微分方程(SDE)的取樣器在提高樣本質量的同時增加了取樣時間。我們將這種差異歸因於取樣誤差:ODE取樣器涉及較小的離散化誤差,而SDE中的隨機性會收縮累積的誤差。基於這些發現,我們提出了一種名為“重新啟動”的新型取樣算法,以更好地平衡離散化誤差和收縮。該取樣方法交替於額外的前向步驟中添加大量噪聲,並嚴格遵循反向ODE。從實證來看,“重新啟動”取樣器在速度和準確性方面均超越了先前的SDE和ODE取樣器。在CIFAR-10 / ImageNet 64x64上,“重新啟動”不僅優於先前最佳的SDE結果,還將取樣速度提高了10倍/2倍。此外,在可比的取樣時間內,“重新啟動”取得了比ODE取樣器更好得多的樣本質量。此外,“重新啟動”在大規模文本到圖像Stable Diffusion模型上的文本-圖像對齊/視覺質量與多樣性平衡方面優於先前的取樣器,該模型在LAION 512x512上預先訓練。代碼可在https://github.com/Newbeeer/diffusion_restart_sampling找到。
Transformer 模型在語言任務取得成功後,已展現出在計算機視覺領域的巨大潛力。Swin Transformer 是其中之一,在準確性方面優於基於卷積的架構,同時與 Vision Transformer (ViT) 及其變體相比,在效率上有所提升,後者對於輸入大小具有二次複雜度。Swin Transformer 具有移動窗口,允許跨窗口連接,同時將自注意力計算限制在不重疊的本地窗口上。然而,移動窗口引入了記憶體複製操作,佔其運行時間的相當大部分。為了緩解這個問題,我們提出了 Swin-Free,其中我們在各階段應用大小變化的窗口,而非移動窗口,以實現本地窗口之間的交叉連接。透過這個簡單的設計更改,Swin-Free 在推論時運行速度比 Swin Transformer 更快,並具有更高的準確性。此外,我們還提出了幾個 Swin-Free 變體,比其 Swin Transformer 對應物更快。
對於3D物體操作,使用建立明確3D表示的方法比僅依賴相機影像的方法表現更好。但是,使用像體素這樣的明確3D表示會帶來巨大的計算成本,對可擴展性產生不利影響。在這項工作中,我們提出了RVT,一種適用於3D操作的多視圖Transformer,具有可擴展性和準確性。RVT的一些關鍵特點包括注意機制,用於跨視圖聚合信息,以及從機器人工作空間周圍的虛擬視圖重新呈現相機輸入。在模擬中,我們發現單個RVT模型在18個RLBench任務中的249個任務變化上表現良好,相對成功率比現有的最先進方法(PerAct)高出26%。它還比PerAct快36倍訓練,以達到相同的性能,並實現PerAct的推理速度的2.3倍。此外,RVT可以僅通過每個任務的少量(約10個)示範在現實世界中執行各種操作任務。有關視覺結果、代碼和訓練模型,請參見https://robotic-view-transformer.github.io/。
在未來天氣的不確定性下,機率預測對於決策至關重要。主要方法是使用一組預測來表示和量化操作性數值天氣預報中的不確定性。然而,生成預測組合具有計算成本高的特點。本文提出通過利用最新的生成式人工智慧技術,以規模化生成集合預測。我們的方法從包含5個成員的GEFS重新預報數據集中學習數據驅動的概率擴散模型。然後可以高效地對模型進行抽樣,以產生逼真的天氣預報,條件是操作性GEFS預報系統的幾個成員。生成的集合具有與完整GEFS 31個成員集合相似的預測技能,根據對ERA5再分析的評估,並且很好地模擬了基於大型物理的集合的統計數據。我們還將相同方法應用於開發用於生成後處理的擴散模型:該模型直接學習通過在訓練期間利用再分析數據作為標籤來糾正模擬預報系統中存在的偏差。來自這種生成後處理模型的集合表現出更高的可靠性和準確性,特別是在極端事件分類方面。一般來說,它們比GEFS操作集合更可靠,更準確地預測極端天氣的概率。我們的模型以不到操作性GEFS系統計算成本的1/10達到這些結果。