每日精選AI研究論文及翻譯
我們致力於條件音樂生成任務。我們引入了MusicGen,這是一個單一語言模型(LM),可操作多個壓縮離散音樂表示流,即標記。與先前的工作不同,MusicGen由單階段變壓器LM和高效的標記交錯模式組成,消除了需要級聯多個模型(例如層次化或上取樣)的必要性。採用這種方法,我們展示了MusicGen如何能夠生成高質量樣本,同時在文本描述或旋律特徵的條件下進行,從而更好地控制生成的輸出。我們進行了廣泛的實證評估,考慮自動和人類研究,顯示所提出的方法優於標準文本到音樂基準上評估的基線。通過消融研究,我們闡明了構成MusicGen的每個組件的重要性。音樂樣本、代碼和模型可在https://github.com/facebookresearch/audiocraft找到。
在互動自然語言任務中,高質量的指示和回應對於大型語言模型的零-shot表現至關重要。對於涉及複雜視覺場景的互動視覺-語言任務,大量多樣且具創意的指示-回應對是調整視覺-語言模型(VLMs)的關鍵。然而,目前關於視覺-語言指示-回應對在數量、多樣性和創意方面的可用性仍然有限,這對於互動VLMs的泛化提出了挑戰。在這裡,我們提出了MultI-Modal In-Context Instruction Tuning(MIMIC-IT),這是一個包含280萬個多模式指示-回應對的數據集,其中有來自圖像和視頻的220萬個獨特指示。每對都附帶多模式上下文信息,形成旨在增強VLMs在感知、推理和規劃方面的對話上下文。指示-回應收集過程被稱為Syphus,使用自動標註流程與GPT的能力相結合進行擴展。使用MIMIC-IT數據集,我們訓練了一個名為Otter的大型VLM。通過對視覺-語言基準進行的廣泛評估,觀察到Otter在多模式感知、推理和上下文學習方面表現出卓越的能力。人類評估顯示它能有效地與用戶意圖對齊。我們釋出了MIMIC-IT數據集、指示-回應收集流程、基準測試和Otter模型。
我們提出了一種新的測試時間優化方法,用於從視頻序列中估計密集且長距離運動。先前的光流或粒子視頻跟踪算法通常在有限的時間窗口內運作,難以跟踪遮蔽物並保持估計運動軌跡的全局一致性。我們提出了一種完整且全局一致的運動表示,稱為OmniMotion,它允許對視頻中的每個像素進行準確的全長度運動估計。OmniMotion使用幾乎三維的標準體表示視頻,並通過局部空間和標準空間之間的雙射進行像素級跟踪。這種表示使我們能夠確保全局一致性,穿越遮蔽物,並模擬任何相機和物體運動的組合。在TAP-Vid基準測試和現實世界影片上進行了廣泛評估,結果顯示我們的方法在定量和定性上均大幅優於先前的最先進方法。請查看我們的項目頁面以獲取更多結果:http://omnimotion.github.io/
由大型語言模型(LLMs)驅動的對話代理為與視覺數據互動提供了一種新方式。儘管已經有了基於圖像的對話模型的初步嘗試,但本研究探討了引入Video-ChatGPT的基於視頻的對話領域。這是一個多模型模型,將視頻適應的視覺編碼器與LLM相結合。該模型能夠理解並生成關於視頻的人類對話。我們引入了一個新的數據集,包含10萬個視頻指令對,用於訓練Video-ChatGPT,通過手動和半自動化流程獲取,易於擴展並對標籤噪聲具有強韌性。我們還為基於視頻的對話模型開發了一個定量評估框架,以客觀分析所提出模型的優勢和劣勢。我們的代碼、模型、指令集和演示可在https://github.com/mbzuai-oryx/Video-ChatGPT 上找到。
預訓練的影像擴散模型展現出卓越的能力,不僅用於生成固定大小的影像,還可用於創建全景圖。然而,單純地拼接多張影像通常會產生可見的接縫。近期的技術嘗試解決此問題,透過在多個窗口中執行聯合擴散,並在重疊區域平均潛在特徵來處理。然而,這些方法專注於無縫拼貼生成,卻常導致在單一影像中混合不同場景而產生不連貫的輸出。為克服此限制,我們提出SyncDiffusion,一個可即插即用的模組,通過從感知相似性損失中進行梯度下降,以同步多個擴散。具體來說,我們在每個去噪步驟使用預測的去噪影像計算感知損失的梯度,為實現連貫的拼貼提供有意義的指導。我們的實驗結果表明,相較於先前的方法,我們的方法產生的輸出更具連貫性(在我們的用戶研究中為66.35% vs. 33.65%),同時仍保持忠實度(由GIQA評估)和與輸入提示的兼容性(由CLIP分數測量)。
本文提出了Matting Anything Model(MAM),這是一個高效且多功能的框架,用於估計圖像中任何實例的alpha遮罩,並提供靈活且互動式的視覺或語言提示指導。MAM相較於先前專門的圖像遮罩網絡具有幾個顯著優勢:(i) MAM能夠處理各種類型的圖像遮罩,包括語義、實例和參考圖像遮罩,僅使用單個模型;(ii) MAM利用Segment Anything Model(SAM)的特徵映射,並採用輕量級的Mask-to-Matte(M2M)模塊通過迭代細化來預測alpha遮罩,僅具有270萬可訓練參數;(iii) 通過整合SAM,MAM簡化了互動式圖像遮罩使用所需的用戶干預,從trimap到框、點或文本提示。我們在各種圖像遮罩基準測試中評估了MAM的性能,實驗結果表明,MAM在每個基準測試中在不同指標下實現了與最先進的專門圖像遮罩模型可比的性能。總的來說,MAM展現出卓越的泛化能力,能夠有效處理各種圖像遮罩任務,並使用更少的參數,使其成為統一圖像遮罩的實用解決方案。我們的代碼和模型在https://github.com/SHI-Labs/Matting-Anything 上開源。
在最先進的神經架構搜索(NAS)框架中,權重共享的超網已成為性能估計的重要組成部分。儘管超網可以直接生成不需重新訓練的不同子網絡,但由於權重共享,這些子網絡的質量無法保證。在機器翻譯和預訓練語言建模等自然語言處理(NLP)任務中,我們觀察到在相同的模型架構下,超網和從頭開始訓練之間存在著很大的性能差距。因此,在找到最佳架構後,超網無法直接使用,需要重新訓練。 在這項工作中,我們提出了混合超網,這是一種通用的超網形式,其中採用了專家混合(MoE)來增強超網模型的表達能力,並具有可忽略的訓練開銷。通過這種方式,不同的子網絡不直接共享模型權重,而是通過基於架構的路由機制進行共享。因此,不同子網絡的模型權重會根據其特定架構進行定制,權重生成是通過梯度下降學習的。與現有的用於NLP的權重共享超網相比,我們的方法可以最小化重新訓練時間,大大提高訓練效率。此外,所提出的方法在NAS中實現了最先進的性能,用於構建快速機器翻譯模型,在延遲和BLEU之間取得更好的折衷,比HAT(機器翻譯的最先進NAS)更勝一籌。我們還在NAS中實現了構建記憶效率高的通用BERT模型的最先進性能,在各種模型大小上優於NAS-BERT和AutoDistil。
從單張圖像估計物體的深度對於許多視覺、機器人和圖形應用來說是一項有價值的任務。然而,目前的方法常常無法為不同場景中的物體生成準確的深度。在這項工作中,我們提出了一種簡單而有效的背景提示策略,該策略通過學習的背景來適應輸入的物體圖像。我們僅使用小規模合成物體數據集來學習背景提示。為了推斷真實圖像上的物體深度,我們將分割的物體放入學習的背景提示中,並運行現成的深度網絡。背景提示有助於深度網絡專注於前景物體,因為它們對背景變化具有不變性。此外,背景提示減小了合成和真實物體圖像之間的領域差距,比簡單的微調實現了更好的從模擬到真實的泛化。在多個合成和真實數據集上的結果表明,對於各種現有的深度網絡,真實物體深度的改進是一致的。代碼和優化的背景提示可在以下網址找到:https://mbaradad.github.io/depth_prompt。
受可擴展擴散模型在大規模配對文本-圖像數據集上訓練的驅動,文本到圖像合成方法展現出引人入勝的結果。然而,這些模型在處理涉及多個物件、屬性和空間組合的提示時,仍然無法準確遵循文本提示。本文中,我們在擴散模型的交叉注意力和自注意力層中識別潛在原因。我們提出兩種新的損失函數,在採樣過程中根據給定的佈局重新聚焦注意力地圖。我們在DrawBench和HRS基準測試中進行全面實驗,使用由大型語言模型合成的佈局,結果顯示我們提出的損失函數可以輕鬆且有效地整合到現有的文本到圖像方法中,並持續改善生成的圖像與文本提示之間的對齊。
文本到圖像生成模型已經實現了跨不同領域的高分辨率圖像合成,但需要用戶指定他們希望生成的內容。在本文中,我們考慮了相反的問題 -- 給定一組不同的圖像,我們能否發現代表每個圖像的生成概念?我們提出了一種無監督方法,從一組圖像中發現生成概念,將繪畫中的不同藝術風格、物體和照明從廚房場景中解開,並從 ImageNet 圖像中發現圖像類別。我們展示了這些生成概念如何能夠準確地代表圖像的內容,可以重新組合和組合以生成新的藝術和混合圖像,並進一步用作下游分類任務的表示。
我們介紹了BlenderBot 3x,這是對對話模型BlenderBot 3的更新,現在使用來自系統參與用戶的有機對話和反饋數據進行訓練,以提高其技能和安全性。我們公開發布參與者的去識別化互動數據,供研究社區使用,以推動進一步的進展。使用有機數據訓練模型具有挑戰性,因為與人們的“野外”互動包括高質量的對話和反饋,以及對抗性和有毒行為。我們研究了一些技術,使模型能夠從有益的教師那裡學習,同時避免從試圖欺騙模型以獲得無益或有毒回應的人那裡學習。BlenderBot 3x在對話中備受青睞,並在具有挑戰性的情況下顯示出能夠產生更安全回應。儘管我們目前的模型仍然遠非完美,但我們相信通過繼續使用本研究中探索的技術,可以實現進一步的改進。
視覺專用概念,如「區域」,在將一般機器學習框架擴展到物體檢測等任務中發揮了關鍵作用。鑒於基於區域的檢測器在監督學習方面取得的成功,以及對比學習的內部圖像方法的進展,我們探索了將區域應用於重建預訓練的可能性。從遮罩自編碼(MAE)作為基準和靈感出發,我們提出了一個針對解決圖像與區域之間一對多映射的平行預文本任務。由於這些區域可以以無監督方式生成,我們的方法(R-MAE)繼承了MAE的廣泛應用性,同時更具「區域感知性」。在開發R-MAE過程中進行了深入分析,並收斂於一個既有效又高效的變體(比MAE多出1.3%的開銷)。此外,當推廣到各種預訓練數據和下游檢測和分割基準時,它表現出一致的定量改進。最後,我們提供了大量的定性可視化來增進對R-MAE行為和潛力的理解。代碼將在https://github.com/facebookresearch/r-mae 上提供。
阻礙 NeRF 模型在廣泛應用中的一個關鍵障礙是其對準確相機姿勢的依賴。因此,人們越來越感興趣擴展 NeRF 模型以共同優化相機姿勢和場景表示,這提供了一種替代方案,可以避免已知的 SfM 管道的失敗模式。現有的未定位 NeRF 方法在有限的假設下運作,例如先前的姿勢分佈或粗略的姿勢初始化,使其在一般情況下效果較差。在這項工作中,我們提出了一種新穎的方法 LU-NeRF,它可以聯合估計相機姿勢和神經輻射場,並對姿勢配置放鬆了假設。我們的方法以從局部到全局的方式運作,首先在數據的局部子集上進行優化,被稱為小場景。LU-NeRF 估計這個具有挑戰性的少樣本任務的局部姿勢和幾何。通過強健的姿勢同步步驟,將小場景姿勢帶入全局參考框架,最終可以執行姿勢和場景的全局優化。我們展示了我們的 LU-NeRF 管道優於先前的未定位 NeRF 嘗試,而無需對姿勢先前進行限制性假設。這使我們能夠在一般的 SE(3) 姿勢設置中運作,與基準線不同。我們的結果還表明,我們的模型可以與基於特徵的 SfM 管道互補,因為它在低紋理和低分辨率圖像上與 COLMAP 相比表現優越。
我們提出了一個將視覺問答形式化為模塊化代碼生成的框架。與先前關於VQA模塊化方法的工作相比,我們的方法無需額外訓練,依賴於預訓練的語言模型(LMs)、在圖像說明對上預訓練的視覺模型,以及用於上下文學習的五十個VQA範例。生成的Python程序使用算術和條件邏輯調用和組合視覺模型的輸出。相較於未使用代碼生成的少樣本基線,我們的方法在COVR數據集上將準確性提高至少3%,在GQA數據集上提高約2%。
本文討論了與視頻Transformer相關的大量訓練時間和內存消耗所帶來的挑戰,專注於ViViT(Video Vision Transformer)模型,特別是作為動作識別任務基準的分解編碼器版本。分解編碼器變體採用了許多最先進方法中採用的後融合方法。儘管在ViViT的不同變體中,分解編碼器以其有利的速度/準確性折衷而脫穎而出,但其相當可觀的訓練時間和內存需求仍然構成了一個重要的進入障礙。我們的方法旨在降低這一障礙,其基礎是凍結空間Transformer的想法。這將導致低準確性模型,如果單純地進行。但我們表明,通過(1)適當初始化時間Transformer(負責處理時間信息的模塊)(2)引入一個連接凍結空間表示(一個選擇性關注輸入圖像區域的模塊)與時間Transformer的緊湊適配器模型,我們可以在不犧牲準確性的情況下享受凍結空間Transformer的好處。通過對6個基準進行廣泛實驗,我們證明了我們提出的訓練策略顯著降低了訓練成本(約50%)和內存消耗,同時與基準模型相比,保持或略微提高了性能,最高可達1.79%。我們的方法還可以解鎖利用更大的圖像Transformer模型作為我們的空間Transformer並在相同內存消耗下訪問更多幀的能力。
球形 CNN 將 CNN 推廣至球面上的函數,主要使用球形卷積作為線性運算。計算球形卷積最準確且高效的方式是在頻譜域中(透過卷積定理),但仍比通常的平面卷積更昂貴。因此,迄今為止,球形 CNN 的應用僅限於可以以較低模型容量解決的小問題。在這項研究中,我們展示了如何將球形 CNN 擴展至更大的問題。為了實現這一目標,我們進行了關鍵改進,包括常見模型組件的新變體、實現核心操作以利用硬體加速器特性,以及利用我們模型特性的特定應用輸入表示。實驗表明,我們更大的球形 CNN 在 QM9 分子基準的多個目標上達到了最先進水準,該基準以前主要由等變圖神經網絡主導,並在多個天氣預報任務上取得了競爭性表現。我們的程式碼可在 https://github.com/google-research/spherical-cnn 找到。