每日精選AI研究論文及翻譯
在這份工作中,我們討論建立高效的多模態大型語言模型(MLLMs)。特別是,我們研究各種架構組件和數據選擇的重要性。通過對圖像編碼器、視覺語言連接器和各種預訓練數據進行仔細和全面的消融,我們確定了幾個關鍵的設計教訓。例如,我們證明了在大規模多模態預訓練中,使用精心混合的圖像說明、交錯的圖像文本和僅文本數據對於在多個基準測試中實現最先進(SOTA)的少樣本結果至關重要,相較於其他已發表的預訓練結果。此外,我們展示了圖像編碼器與圖像解析度以及圖像標記數量的重要影響,而視覺語言連接器的設計相對較不重要。通過擴展所提出的方法,我們建立了MM1,一系列多模態模型,擁有高達30B參數,包括密集模型和專家混合變體,這些模型在預訓練指標上處於SOTA地位,在一系列已建立的多模態基準測試上,在監督微調後實現了競爭性表現。由於大規模預訓練,MM1具有吸引人的特性,如增強的上下文學習和多圖像推理,實現少樣本的思維連貫提示。
在書寫和交談時,人們有時會停下來思考。儘管以推理為重點的作品通常將推理框定為回答問題或完成代理任務的方法,但推理幾乎隱含在所有書面文本中。例如,這適用於證明中未明確陳述的步驟,或者適用於支撐對話背後的心智理論。在《自學推理者》(STaR,Zelikman等人,2022)中,通過從少量示例中推斷出合理性來學習有用的思考,從而導致正確答案的學習。這是一個高度受限制的環境--理想情況下,語言模型可以學會推斷任意文本中未明示的合理性。我們提出了Quiet-STaR,這是STaR的一種泛化,其中語言模型學會在每個標記處生成合理性,以解釋未來的文本,從而改善其預測。我們解決了一些關鍵挑戰,包括:1)生成延續的計算成本,2)語言模型最初不知道如何生成或使用內部思維,以及3)需要預測超出單個下一個標記。為了解決這些問題,我們提出了一種標記平行抽樣算法,使用可學習的標記來指示思維的開始和結束,以及擴展的教師強迫技術。令人鼓舞的是,生成的合理性不成比例地幫助模型預測困難的標記,並提高語言模型直接回答困難問題的能力。特別是,在持續對語言模型在互聯網文本語料庫上進行Quiet-STaR的預訓練後,我們發現對GSM8K(5.9%到10.9%)和CommonsenseQA(36.3%到47.2%)的零樣本改進,並觀察到自然文本中困難標記的困惑度改進。至關重要的是,這些改進不需要對這些任務進行微調。Quiet-STaR標誌著語言模型能夠以更一般和可擴展的方式學習推理的一步。
在網頁開發中使用視覺語言模型(VLMs)提供了一個有前途的策略,可以提高效率並解開無代碼解決方案的障礙:通過提供 UI 的截圖或草圖,VLM 可以生成代碼以重現它,例如在 HTML 這樣的語言中。儘管在各種任務上 VLMs 取得了進展,但將截圖轉換為對應的 HTML 的具體挑戰卻鮮少被探討。我們認為這主要是由於缺乏合適的高質量數據集所致。本研究介紹了 WebSight,這是一個由 200 萬對 HTML 代碼和它們對應的截圖組成的合成數據集。我們在我們的數據集上對基礎 VLM 進行微調,並展示了將網頁截圖轉換為功能性 HTML 代碼的能力。為了加速這一領域的研究,我們將 WebSight 開源。
本文提出了一個名為 GiT 的簡單而有效的框架,僅使用基本的 ViT 即可同時應用於各種視覺任務。受到多層Transformer架構(例如GPT)在大型語言模型(LLMs)中被廣泛使用的普遍性的啟發,我們試圖擴大其範圍,以作為一個強大的視覺基礎模型(VFM)。然而,與語言建模不同,視覺任務通常需要特定的模塊,例如用於檢測的邊界框頭和用於分割的像素解碼器,這大大阻礙了在視覺領域應用強大的多層Transformer。為了解決這個問題,我們設計了一個通用的語言接口,使成功的自回歸解碼能夠巧妙地統一各種視覺任務,從圖像級的理解(例如字幕生成),到稀疏感知(例如檢測),再到密集預測(例如分割)。基於上述設計,整個模型僅由ViT組成,沒有任何特定的添加,提供了顯著的架構簡化。GiT是一個多任務視覺模型,跨越五個代表性基準進行聯合訓練,無需特定任務的微調。有趣的是,我們的GiT在通用性能方面建立了一個新的基準,並促進了任務之間的相互增強,從而相較於獨立訓練實現了顯著的改進。這反映了在LLMs中觀察到的類似影響。通過將訓練豐富化為27個數據集,GiT在各種任務上實現了強大的零-shot結果。由於其簡單的設計,這種範式有望縮小視覺和語言之間的架構差距。代碼和模型將在https://github.com/Haiyang-W/GiT 提供。
擴散模型在文本到圖像合成中取得了巨大成功,使其成為下一代圖像生成和編輯的應用程序的有前途的候選者。先前的研究著重於通過減少推理時間或增加用戶互動性來改善擴散模型的可用性,例如允許新的、精細的控制,如基於區域的文本提示。然而,我們在實證中發現整合這兩個研究分支並不簡單,限制了擴散模型的潛力。為了解決這種不相容性,我們提出了StreamMultiDiffusion,這是第一個實時基於區域的文本到圖像生成框架。通過穩定快速推理技術並將模型重組為新提出的多提示流批次架構,我們實現了比現有解決方案快10倍的全景生成速度,以及在單個RTX 2080 Ti GPU上基於區域的文本到圖像合成的1.57 FPS生成速度。我們的解決方案開創了一種名為語義調色板的互動式圖像生成新範式,可以即時從給定的多個手繪區域生成高質量圖像,編碼預定的語義含義(例如,鷹,女孩)。我們的代碼和演示應用程序可在https://github.com/ironjr/StreamMultiDiffusion 上找到。
我們介紹 Emu Video Edit(EVE),這是一個在影片編輯領域創立了新的技術水準,並且不依賴任何監督式影片編輯數據的模型。為了開發EVE,我們分別訓練了一個圖像編輯適配器和一個影片生成適配器,並將兩者附加到同一個文本到圖像模型上。然後,為了將適配器對準影片編輯,我們引入了一個新的無監督蒸餾程序,稱為分解擴散蒸餾。這個程序可以從一個或多個教師那裡同時蒸餾知識,而無需任何監督數據。我們利用這個程序來教導EVE如何編輯影片,通過共同蒸餾知識來(i)精確編輯來自圖像編輯適配器的每個單獨幀,以及(ii)確保使用影片生成適配器在編輯幀之間保持時間一致性。最後,為了展示我們方法在開啟其他功能方面的潛力,我們對進一步的適配器組合進行了對齊。
有效的注意力模組在基於Transformer的大型語言模型(LLMs)的成功中扮演了關鍵角色,但這些注意力模組的二次時間和記憶體複雜度在處理長序列時也帶來挑戰。解決長序列問題的一種潛在方案是利用分散式集群來將注意力模組的計算在多個設備(例如GPU)上進行並行化。然而,採用分散式方法不可避免地會引入額外的記憶體開銷以存儲本地注意力結果,並產生額外的通信成本以將本地結果聚合為全局結果。在本文中,我們提出了一個名為“BurstAttention”的分散式注意力框架,以優化在全局集群和本地設備層面的記憶體訪問和通信操作。在我們的實驗中,我們將BurstAttention與其他競爭性的分散式注意力解決方案進行比較,用於處理長序列。在不同長度設置下的實驗結果表明,與這些競爭基準相比,BurstAttention在處理長序列時提供了顯著的優勢,減少了40%的通信開銷,在8 X A100上訓練32K序列長度時實現了2倍加速。
視覺文本呈現對當代文本到圖像生成模型構成了一個基本挑戰,其核心問題在於文本編碼器的不足。為了實現準確的文本呈現,我們確定了文本編碼器的兩個關鍵要求:字符感知和與字形的對齊。我們的解決方案涉及打造一系列定制的文本編碼器,Glyph-ByT5,通過微調具有字符感知能力的ByT5編碼器,使用精心策劃的成對字形-文本數據集。我們提出了一種有效的方法,將Glyph-ByT5與SDXL集成在一起,從而創建了用於設計圖像生成的Glyph-SDXL模型。這顯著提高了文本呈現的準確性,將其從不到20%提升至幾乎90%在我們的設計圖像基準上。值得注意的是,Glyph-SDXL現在具有對文本段落呈現的能力,實現了對數十到數百個字符的高拼寫準確性,並具有自動多行佈局。最後,通過對Glyph-SDXL進行微調,使用一小組高質量、照片逼真的圖像,展示了在開放域真實圖像中場景文本呈現能力的顯著改善。這些引人注目的結果旨在鼓勵進一步探索,設計用於各種具有挑戰性任務的定制文本編碼器。
大型視覺語言模型已實現精細的物件感知,但圖像解析度的限制仍然是超越在複雜和密集情境中表現出色的特定任務專家的重要障礙。這種限制進一步限制了模型在諸如GUI代理、計數等領域實現細緻的視覺和語言參照的潛力。為了解決這個問題,我們引入了一個統一的高解析度通用模型,Griffon v2,實現了具有視覺和文本提示的靈活物件參照。為了有效地提高圖像解析度,我們設計了一個簡單且輕量級的下採樣投影器,以克服大型語言模型中輸入令牌的限制。這種設計固有地保留了完整的上下文和細節,並顯著提高了多模態感知能力,特別是對於小物件。在此基礘上,我們進一步通過一個即插即用的視覺標記器為模型配備了視覺-語言共參照能力。它實現了與靈活目標圖像、自由格式文本甚至座標的用戶友好互動。實驗表明,Griffon v2能夠定位任何感興趣的物件並進行視覺和文本參照,實現了REC、短語定位和REG任務的最新性能,並在物件檢測和物件計數方面勝過專家模型。數據、代碼和模型將在https://github.com/jefferyZhan/Griffon 上發布。
理解影片是計算機視覺研究中的基本方向之一,人們已經付出了大量努力來探索各種架構,例如RNN、3D CNN和Transformers。新提出的狀態空間模型架構,例如Mamba,展現了將其在長序列建模成功擴展到影片建模的潛力。為了評估Mamba在影片理解領域是否可以成為Transformers的可行替代方案,在這項工作中,我們進行了一系列全面的研究,探討Mamba在影片建模中可以扮演的不同角色,同時調查Mamba可能展現優越性能的各種任務。我們將Mamba分為四種影片建模角色,推導出由14個模型/模組組成的Video Mamba Suite,並在12個影片理解任務上對其進行評估。我們的廣泛實驗揭示了Mamba在僅影片和影片-語言任務上的巨大潛力,同時展示了有前途的效率-性能折衷。我們希望這項工作可以為未來關於影片理解的研究提供有價值的數據和見解。代碼公開:https://github.com/OpenGVLab/video-mamba-suite。
最近的視覺-語言-動作(VLA)模型依賴2D輸入,缺乏與3D物理世界更廣泛整合。此外,它們通過從感知到動作的直接映射來執行動作預測,忽略了世界的龐大動態和動作與動態之間的關係。相比之下,人類擁有描繪未來場景想像以相應規劃動作的世界模型。為此,我們提出了3D-VLA,通過引入一個新的具身基礎模型家族,無縫地將3D感知、推理和動作通過生成式世界模型相連。具體來說,3D-VLA建立在基於3D的大型語言模型(LLM)之上,並引入一組交互標記以與具身環境互動。此外,為了將生成能力注入模型,我們訓練了一系列具身擴散模型,並將它們與LLM對齊以預測目標圖像和點雲。為了訓練我們的3D-VLA,我們通過從現有機器人數據集中提取大量3D相關信息來編纂了一個大規模的3D具身指令數據集。我們在保留數據集上的實驗表明,3D-VLA顯著改善了具身環境中的推理、多模態生成和規劃能力,展示了其在實際應用中的潛力。
將文字進化為視覺元件有助於人們日常生活,例如從文字生成圖像、影片,以及識別圖像中所需元素。過去涉及多模式能力的電腦視覺模型專注於基於明確定義對象的圖像檢測、分類。大型語言模型(LLMs)引入了從自然語言轉換為視覺對象的概念,為文本內容呈現視覺佈局。OpenAI GPT-4 已成為LLMs的巔峰,而電腦視覺(CV)領域擁有眾多最先進的模型和算法,可將2D圖像轉換為其3D表示。然而,算法與問題之間的不匹配可能導致不良結果。為應對此挑戰,我們提出了統一的VisionGPT-3D框架,以整合最先進的視覺模型,從而促進以視覺為導向的人工智能的發展。VisionGPT-3D提供了一個多功能多模式框架,建立在多模式基礎模型的優勢之上。它無縫集成各種最先進的視覺模型,實現了自動選擇最先進的視覺模型,識別適合的3D網格創建算法,對應於2D深度圖分析,基於各種多模式輸入(如文本提示)生成最佳結果。 關鍵詞:VisionGPT-3D、3D視覺理解、多模式代理
最近,人工智慧領域的研究人員對語言和視覺如何結合產生了濃厚興趣,這促使了多模型的發展,旨在無縫整合文本和視覺信息。多模型是大型語言模型(LLMs)的延伸,展現出在處理各種任務上的卓越能力,從圖像標註和視覺問答(VQA)到視覺定位。儘管這些模型展示了顯著的進展,但在準確解釋圖像並回答問題方面仍存在挑戰,這在現實場景中很常見。本文介紹了一種增強現有模型多模能力的新方法。為應對當前視覺語言模型(VLMs)和多模大型語言模型(MLLMs)中觀察到的限制,我們提出的Veagle模型融合了一個獨特的機制,靈感來自先前作品的成功和見解。Veagle利用一個動態機制,將編碼的視覺信息直接投影到語言模型中。這種動態方法允許對視覺情境中的微妙細節有更細緻的理解。為驗證Veagle的有效性,我們在基準數據集上進行了全面實驗,重點放在視覺問答和圖像理解等任務上。我們的結果表明,在性能方面提高了5-6%,Veagle在性能上明顯優於現有模型。這些結果突顯了該模型在傳統基準之外的多樣性和應用性。
最近在狀態空間模型方面的進展,尤其是Mamba,已經展示出在長序列建模方面取得了顯著進展,例如語言理解任務。然而,它們在視覺任務中的應用並未明顯超越傳統的卷積神經網絡(CNNs)和視覺Transformer(ViTs)的性能。本文認為增強Vision Mamba(ViM)的關鍵在於優化序列建模的掃描方向。傳統的ViM方法將空間標記展平,忽略了保留局部2D依賴性,從而拉長了相鄰標記之間的距離。我們引入了一種新穎的局部掃描策略,將圖像劃分為不同的窗口,有效捕捉局部依賴性同時保持全局視角。此外,我們認識到在不同網絡層之間掃描模式的變化偏好,提出了一種動態方法,獨立搜索每一層的最佳掃描選擇,從而顯著提高性能。在普通和分層模型上進行的大量實驗突顯了我們方法在有效捕捉圖像表示方面的優越性。例如,我們的模型在ImageNet上的性能比Vim-Ti高出3.1%,並且具有相同的1.5G FLOPs。代碼可在以下鏈接找到:https://github.com/hunto/LocalMamba。