每日精選AI研究論文及翻譯
合成符合使用者需求的視覺內容通常需要對生成物件的姿勢、形狀、表情和佈局進行靈活且精確的可控性。現有方法通常通過手動標註的訓練數據或先前的3D模型來獲得生成對抗網絡(GANs)的可控性,但這些方法往往缺乏靈活性、精確性和通用性。在本研究中,我們探討了一種強大但較少被探索的控制GANs的方式,即以用戶互動的方式“拖曳”圖像中的任何點以精確到達目標點,如圖1所示。為了實現這一點,我們提出了DragGAN,它包括兩個主要組件:1)基於特徵的運動監督,驅使控制點向目標位置移動,以及2)一種新的點跟踪方法,利用辨識生成器特徵來持續定位控制點的位置。通過DragGAN,任何人都可以通過精確控制像素的位置來變形圖像,從而操縱動物、汽車、人類、風景等各種類別的姿勢、形狀、表情和佈局。由於這些操作是在GAN的學習生成圖像流形上進行的,因此即使對於挑戰性情景(如幻覺遮擋內容和變形形狀始終遵循對象的剛性)也往往能產生逼真的輸出。定性和定量比較顯示DragGAN在圖像操作和點跟踪任務中相對於先前方法的優勢。我們還展示了通過GAN反演對真實圖像進行操作的示例。
語言模型越來越廣泛地應用於各種一般性問題解決任務,但在推理過程中仍受限於基於標記的、從左到右的決策過程。這意味著它們在需要探索、策略性預視或初始決策至關重要的任務中可能會出現不足。為了克服這些挑戰,我們引入了一個新的語言模型推理框架,稱為“思維樹”(Tree of Thoughts,ToT),它廣泛應用於促使語言模型的流行“思維鏈”方法,並實現對作為問題解決中間步驟的連貫文本單元(思維)的探索。ToT使語言模型能夠通過考慮多個不同的推理路徑和自我評估選擇來進行蓄意的決策,以決定下一步行動,同時在必要時向前或向後追溯,以做出全局性選擇。我們的實驗表明,ToT顯著增強了語言模型在需要複雜規劃或搜索的三項新任務中的問題解決能力:24點遊戲、創意寫作和小型填字遊戲。例如,在24點遊戲中,儘管只有使用思維鏈提示的GPT-4解決了4%的任務,我們的方法實現了74%的成功率。所有提示的代碼存儲庫:https://github.com/ysymyth/tree-of-thought-llm。
本研究提出了一種用於三維的潛在擴散模型(LDM3D),可以從給定的文本提示生成圖像和深度圖數據,使用戶能夠從文本提示生成RGBD圖像。LDM3D模型在包含RGB圖像、深度圖和標題的元組數據集上進行了微調,並通過大量實驗進行了驗證。我們還開發了一個名為DepthFusion的應用程序,該應用程序使用生成的RGB圖像和深度圖來創建沉浸式和交互式的360度視圖體驗,並使用TouchDesigner。這項技術有潛力改變廣泛的行業,從娛樂和遊戲到建築和設計。總的來說,本文對生成式人工智能和計算機視覺領域做出了重要貢獻,展示了LDM3D和DepthFusion改變內容創作和數字體驗的潛力。可以在https://t.ly/tdi2找到總結該方法的短視頻。
我們介紹了 OpenShape,一種用於學習文本、圖像和點雲的多模態聯合表示的方法。我們採用了常用的多模態對比學習框架進行表示對齊,但特別專注於擴展 3D 表示以實現開放世界的 3D 形狀理解。為了實現這一目標,我們通過合併多個 3D 數據集來擴大訓練數據,並提出了幾種自動過濾和豐富嘈雜文本描述的策略。我們還探索並比較了用於擴展 3D 主幹網絡的策略,並引入了一個新的硬負採樣模塊以實現更高效的訓練。我們在零樣本 3D 分類基準上評估了 OpenShape,展示了其在開放世界識別方面的卓越能力。具體而言,OpenShape 在包含 1,156 個類別的 Objaverse-LVIS 基準上實現了 46.8% 的零樣本準確率,而現有方法不到 10%。OpenShape 在 ModelNet40 上實現了 85.3% 的準確率,優於先前的零樣本基線方法 20%,並與一些完全監督方法表現相當。此外,我們展示了我們學到的嵌入式編碼涵蓋了各種視覺和語義概念(例如,子類別、顏色、形狀、風格),並促進了細粒度的文本-3D 和圖像-3D 交互。由於與 CLIP 嵌入的對齊,我們學到的形狀表示還可以與現成的基於 CLIP 的模型集成,用於各種應用,如點雲標題生成和點雲條件下的圖像生成。
多模式大型語言模型被視為通往人工通用智能(AGI)的關鍵一步,並隨著 ChatGPT 的出現而引起了相當大的興趣。然而,目前的語音語言模型通常採用串聯範式,阻礙了跨模態知識傳輸。在本文中,我們提出了 SpeechGPT,這是一個具有內在跨模態對話能力的大型語言模型,能夠感知和生成多模式內容。我們首先使用離散語音表示來構建 SpeechInstruct,這是一個大規模的跨模態語音指導數據集。此外,我們採用了三階段訓練策略,包括模態適應預訓練、跨模態指導微調和模態鏈指導微調。實驗結果表明,SpeechGPT 具有出色的能力來遵循多模式人類指令,並突顯了使用一個模型處理多個模態的潛力。演示請參見 https://0nutation.github.io/SpeechGPT.github.io/。
大型語言模型(LLMs)顯著加速了人工通用智能(AGI)的進展,憑藉其令人印象深刻的零-shot能力,為用戶定製任務,賦予它們在各種應用中巨大潛力。然而,在計算機視覺領域,儘管有許多功能強大的視覺基礎模型(VFMs)可用,但它們仍然被限制在預定形式的任務中,難以匹敵LLMs的開放任務能力。在這項工作中,我們提出了一個基於LLM的以視覺為中心的任務框架,稱為VisionLLM。該框架通過將圖像視為外語,將視覺中心任務與可以使用語言指令靈活定義和管理的語言任務對齊,為視覺和語言任務提供統一的視角。基於LLM的解碼器可以根據這些指令對開放任務進行適當預測。大量實驗表明,提出的VisionLLM可以通過語言指令實現不同級別的任務定製,從細粒度對象級別到粗粒度任務級別的定製,並取得良好結果。值得注意的是,憑藉通用主義LLM框架,我們的模型可以在COCO上實現超過60%的mAP,與特定於檢測的模型不相上下。我們希望這個模型可以為通用主義視覺和語言模型設定新的基準。演示將基於https://github.com/OpenGVLab/InternGPT發布。代碼將在https://github.com/OpenGVLab/VisionLLM上發布。
在互動式人工智慧系統設計中,實現機器自主性和人類控制通常代表著不同的目標。視覺生成基礎模型,如穩定擴散,展示了在應對任意語言提示時導航這些目標的潛力。然而,它們在生成具有空間、結構或幾何控制的圖像方面常常表現不佳。整合這些控制,能夠在單一統一模型中應對各種視覺條件,仍然是一個未解決的挑戰。為此,我們引入了UniControl,一種新的生成基礎模型,將各種可控條件到圖像(C2I)任務統合到單一框架中,同時仍允許任意語言提示。UniControl實現了像素級精確的圖像生成,其中視覺條件主要影響生成的結構,而語言提示則引導風格和內容。為了使UniControl具備處理多樣視覺條件的能力,我們擴充了預訓練的文本到圖像擴散模型,並引入了一個任務感知的HyperNet來調節擴散模型,實現對不同C2I任務的同時適應。在九個獨特的C2I任務上訓練後,UniControl展示了令人印象深刻的零樣本生成能力,可以應對未見過的視覺條件。實驗結果顯示,UniControl通常優於相同模型大小的單任務控制方法的性能。這種控制多功能性使UniControl成為可控視覺生成領域的一個重大進步。
擴散模型因其出色的生成能力而受到越來越多的關注,但目前在呈現準確和連貫的文本方面仍存在困難。為解決這個問題,我們引入了TextDiffuser,專注於生成具有視覺吸引力且與背景連貫的文本圖像。TextDiffuser包括兩個階段:首先,一個Transformer模型生成從文本提示中提取的關鍵詞的佈局,然後擴散模型生成以文本提示和生成的佈局為條件的圖像。此外,我們貢獻了第一個帶有OCR標註的大規模文本圖像數據集MARIO-10M,其中包含1000萬個圖像文本對,具有文本識別、檢測和字符級別分割標註。我們進一步收集了MARIO-Eval基準測試集,作為評估文本呈現質量的綜合工具。通過實驗和用戶研究,我們展示了TextDiffuser是靈活且可控的,可以僅使用文本提示或與文本模板圖像一起創建高質量的文本圖像,並進行文本修補以重建帶有文本的不完整圖像。代碼、模型和數據集將在https://aka.ms/textdiffuser 上提供。
改善文本表示已引起廣泛關注,以實現具有表達力的文本轉語音(TTS)。然而,現有研究僅通過遮罩標記重建任務隱式學習韻律,這導致訓練效率低且難以進行韻律建模。我們提出 CLAPSpeech,一種跨模態對比預訓練框架,明確學習相同文本標記在不同上下文下的韻律變異。具體來說,1)我們通過精心設計的編碼器輸入和對比損失,鼓勵模型將文本上下文與其對應的韻律模式連接在聯合多模態空間中;2)我們引入多尺度預訓練流程,以捕獲多個層次的韻律模式。我們展示了如何將 CLAPSpeech 納入現有的 TTS 模型以獲得更好的韻律。在三個數據集上的實驗不僅顯示 CLAPSpeech 可以改善現有 TTS 方法的韻律預測,還展示了其適應多種語言和多語者 TTS 的泛化能力。我們還深入分析了 CLAPSpeech 表現背後的原則。消融研究證明了我們方法中每個組件的必要性。源代碼和音頻樣本可在 https://clapspeech.github.io 上找到。
擴散模型,如穩定擴散,已展現在文本到圖像生成上令人驚豔的表現。由於文本到圖像生成通常需要模型生成帶有文本提示中細緻細節和屬性的視覺概念,我們是否可以利用預先訓練的擴散模型學習的強大表示來進行識別任務,如圖像-文本匹配?為了回答這個問題,我們提出了一種新方法,稱為識別穩定擴散(DSD),將預先訓練的文本到圖像擴散模型轉換為少樣本識別學習器。我們的方法使用穩定擴散模型的交叉注意力分數來捕捉視覺和文本信息之間的相互影響,並通過基於注意力的提示學習來微調模型以執行圖像-文本匹配。通過在幾個基準數據集上將DSD與最先進的方法進行比較,我們展示了利用預先訓練的擴散模型進行識別任務的潛力,在少樣本圖像-文本匹配上取得了優異的結果。
目標檢測已從有限的類別擴展到開放詞彙。展望未來,一個完整的智能視覺系統需要理解更精細的物體描述和物體部分。在本文中,我們提出了一種具有預測開放詞彙物體及其部分分割能力的檢測器。這種能力來自兩個設計。首先,我們訓練檢測器在部分級別、物體級別和圖像級別數據的聯合上,以建立語言和圖像之間的多粒度對齊。其次,我們通過與基本物體的密集語義對應,將新物體解析為其部分。這兩種設計使檢測器能夠從各種數據來源和基礎模型中獲益良多。在開放詞彙部分分割實驗中,我們的方法在PartImageNet的跨數據集泛化中將基準提高了3.3sim7.3 mAP,並在Pascal Part的跨類別泛化中將基準提高了7.3個新的AP_{50}。最後,我們訓練了一個檢測器,它能夠泛化到各種部分分割數據集,同時實現比特定數據集訓練更好的性能。
通常使用自然語言推理(NLI)模型來進行事實一致性評估,但這些模型在評估摘要時表現有限。先前的研究通過合成訓練數據來改善這些模型。然而,這些數據通常基於受干擾的人工撰寫摘要,這些摘要在特徵上與真實模型生成的摘要不同,並且對可能的事實錯誤的覆蓋範圍有限。另外,大型語言模型(LLMs)最近展示了直接評估生成任務的有希望結果,但對於實際應用來說計算成本太高。受到這些限制的啟發,我們介紹了TrueTeacher,一種通過使用LLM注釋多樣化模型生成的摘要來生成合成數據的方法。與先前的工作不同,TrueTeacher不依賴於人工撰寫摘要,並且天生是多語言的。在TRUE基準測試上的實驗表明,使用我們的數據訓練的學生模型明顯優於具有相似容量的最先進模型和LLM教師。在一項系統研究中,我們將TrueTeacher與現有的合成數據生成方法進行比較,並展示其在面對領域轉移時的優越性和穩健性。通過mFACE數據集,我們還展示了我們的方法對多語境的泛化能力。最後,我們釋出了一個使用TrueTeacher生成的包含140萬個示例的大規模合成數據集。
我們介紹了我們開發的多語言、高效的文本到文本轉換器,適用於處理長輸入。該模型名為mLongT5,基於LongT5的架構,同時利用了用於預訓練mT5和UL2預訓練任務的多語言數據集。我們對這個模型在各種多語言摘要和問答任務上進行評估,結果顯示mLongT5相較於現有的多語言模型如mBART或M-BERT表現更強。
符號音樂生成旨在創建音符,可幫助用戶進行音樂創作,例如從頭開始生成目標樂器軌道,或基於用戶提供的源軌道。考慮到源軌道和目標軌道之間多樣且靈活的組合,一個能夠生成任意軌道的統一模型至關重要。先前的研究未能滿足這一需求,這是由於音樂表示和模型架構中固有的限制所致。為了滿足這一需求,我們提出了一個統一的表示和擴散框架,名為GETMusic(“GET”代表GEnerate music Tracks),其中包括一種名為GETScore的新穎音樂表示和一個名為GETDiff的擴散模型。GETScore將音符表示為標記,並將它們組織在二維結構中,軌道垂直堆疊,隨時間水平進行。在訓練期間,軌道被隨機選擇為目標或源。在正向過程中,目標軌道通過遮罩其標記而被損壞,而源軌道保持為真實值。在去噪過程中,GETDiff學習預測被遮罩的目標標記,並以源軌道為條件。通過GETScore中的獨立軌道和模型的非自回歸行為,GETMusic可以明確控制從頭開始生成任何目標軌道或基於源軌道的生成。我們對涉及六個樂器軌道的音樂生成進行了實驗,總共產生了665種組合。GETMusic在各種組合中提供了高質量的結果,並超越了先前針對某些特定組合提出的先前作品。
視覺文本能在人的腦海中喚起一幅畫面,而非視覺文本則無法做到。自動檢測文本中視覺特性的方法將有助於為文本添加相關圖像,因為神經文本生成和檢索模型的運作基於一個隱含假設,即輸入文本具有視覺性質。我們整理了一個包含3,620個英文句子及其視覺特性分數的數據集,這些分數由多個人類標註者提供。此外,我們使用包含文本和視覺資產的文件來創建一個遠程監督的文檔文本和相關圖像的語料庫。我們還提出了一種微調策略,該策略將大型視覺語言模型(如CLIP)調整到假定文本和圖像之間存在一對一對應的任務,以便從僅文本輸入中對文本視覺性進行評分。我們的策略涉及修改模型的對比學習目標,將被識別為非視覺的文本映射到一個通用的NULL圖像,同時將視覺文本與文檔中對應的圖像進行匹配。我們評估了所提出方法的能力,包括(i)準確分類視覺和非視覺文本,以及(ii)關注在心理語言學研究中被識別為視覺的單詞。實證評估表明,我們的方法在所提出的任務中表現優於幾種啟發式方法和基準模型。此外,為了突顯對文本視覺性進行建模的重要性,我們對像DALL-E這樣的文本到圖像生成系統進行了定性分析。
我們研究了將Transformer序列模型作為動態模型(TDMs)用於控制的應用。在DeepMind控制套件的多個實驗中,我們發現首先,與基準模型相比,TDMs在單一環境學習設置中表現良好。其次,TDMs展現了強大的泛化能力,能夠適應未見環境,包括在少樣本設置中,通過用來自目標環境的少量數據對通用模型進行微調,以及在零樣本設置中,將通用模型應用於未見環境而無需進行進一步訓練。我們進一步證明,泛化系統動態比直接泛化最優行為作為策略要好得多。這使得TDMs成為控制基礎模型的一個有前途的組成部分。
我們提出了VideoFactory,這是一個創新的框架,用於生成高質量的開放領域視頻。VideoFactory擅長製作無水印的高清(1376x768)、寬屏(16:9)視頻,創造引人入勝的用戶體驗。根據文本指導生成視頻面臨著重大挑戰,例如建模空間和時間之間的複雜關係,以及缺乏大規模的文本-視頻配對數據。先前的方法通過為視頻生成添加時間1D卷積/注意模塊來擴展預訓練的文本到圖像生成模型。然而,這些方法忽略了聯合建模空間和時間的重要性,不可避免地導致時間失真和文本與視頻之間的不對齊。在本文中,我們提出了一種新穎的方法,加強了空間和時間感知之間的互動。具體來說,我們利用了一種在3D窗口中交換的交叉注意機制,交替在空間和時間塊之間扮演“查詢”角色,從而實現彼此的相互增強。為了充分發揮模型在高質量視頻生成方面的能力,我們編纂了一個名為HD-VG-130M的大規模視頻數據集。該數據集包含來自開放領域的1.3億個文本-視頻對,確保高清晰度、寬屏和無水印特性。客觀指標和用戶研究證明了我們方法在每幀質量、時間相關性和文本-視頻對齊方面的優越性,具有明顯的優勢。
生成式預訓練Transformer(GPT)已展現出在自然語言處理方面的巨大成功,並且相關技術已被應用於分子建模。考慮到文本是科學發現中最重要的記錄,本文提出MolXPT,一個統一的語言模型,預先在SMILES(分子的序列表示)中包裹了文本。簡而言之,我們在每個序列中檢測分子名稱並將其替換為相應的SMILES。通過這種方式,SMILES可以利用周圍文本的信息,反之亦然。上述包裹的序列,來自PubMed的文本序列和來自PubChem的SMILES序列都被餵入語言模型進行預訓練。實驗結果表明,MolXPT在MoleculeNet的分子性質預測方面優於強基線,與最佳的文本-分子翻譯模型相當,同時使用不到一半的參數,並實現了零擬合的分子生成。
儘管擴散模型在生成高質量圖像方面取得了巨大進展,但合成一系列既逼真又時間上連貫的動畫幀仍處於起步階段。儘管可以使用現成的十億級數據集進行圖像生成,但收集相同規模的視頻數據仍然具有挑戰性。此外,訓練視頻擴散模型的計算成本遠高於其圖像對應物。在這項工作中,我們探索了使用視頻數據對預訓練圖像擴散模型進行微調作為視頻合成任務的實際解決方案。我們發現,將圖像噪聲先驗直接擴展到視頻擴散中導致次優性能。我們精心設計的視頻噪聲先驗則實現了顯著更好的性能。廣泛的實驗驗證顯示,我們的模型「保留自身相關性」(PYoCo)在UCF-101和MSR-VTT基準測試中實現了SOTA零樣本文本到視頻的結果。它還在小規模UCF-101基準測試中實現了SOTA視頻生成質量,使用比先前方法少10倍的模型並顯著減少計算量。