每日精選AI研究論文及翻譯
最近在文本到圖像生成方面取得了顯著進展,成功合成了栩栩如生的人類照片,並根據給定的文本提示進行條件設置。然而,現有的個性化生成方法無法同時滿足高效率、有前景的身份(ID)保真度和靈活的文本可控性要求。在這項工作中,我們介紹了PhotoMaker,一種高效的個性化文本到圖像生成方法,主要將任意數量的輸入ID圖像編碼為一個堆疊的ID嵌入,以保留ID信息。這種嵌入作為統一的ID表示,不僅可以全面地封裝相同輸入ID的特徵,還可以容納不同ID的特徵以進行後續整合。這為更引人入勝且實際有價值的應用鋪平了道路。此外,為了推動我們的PhotoMaker的訓練,我們提出了一個以ID為導向的數據構建流程來組裝訓練數據。在通過提出的流程構建的數據集的滋養下,我們的PhotoMaker展示了比基於測試時間微調的方法更好的ID保留能力,同時提供了顯著的速度改進、高質量的生成結果、強大的泛化能力和廣泛的應用範圍。我們的項目頁面位於https://photo-maker.github.io/。
合成語義感知、長時間跨度的人-物互動對於模擬逼真的人類行為至關重要。在這項工作中,我們解決了在3D場景中生成同步物體運動和人體運動的具有挑戰性問題,這些運動是由語言描述引導的。我們提出了可控人-物互動合成(CHOIS),這是一種方法,它使用條件擴散模型同時生成物體運動和人體運動,並給定語言描述、初始物體和人體狀態,以及稀疏的物體航路點。雖然語言描述提供風格和意圖,航路點則將運動紮根於場景中,並且可以通過高層規劃方法有效地提取。單純應用擴散模型無法預測與輸入航路點對齊的物體運動,也無法確保需要精確手-物體接觸和地板支撐的互動的逼真性。為了克服這些問題,我們引入了物體幾何損失作為額外監督,以改善生成的物體運動與輸入物體航路點之間的匹配。此外,我們設計了引導項,以在訓練擴散模型的採樣過程中強制執行接觸約束。
從單張圖片創建3D內容是一項歷史悠久且極具吸引力的任務。最近的進展引入了2D擴散先驗,產生了合理的結果。然而,現有方法對於後期生成的用途並不足以超現實,因為用戶無法從完整範圍查看、渲染和編輯生成的3D內容。為應對這些挑戰,我們引入了HyperDreamer,具有幾個關鍵設計和吸引人的特性:1)可查看:具有高分辨率紋理的360度網格建模使得可以從完整的觀察點創建視覺上引人入勝的3D模型。2)可渲染:細粒度的語義分割和數據驅動的先驗被納入指導,以學習合理的反照率、粗糙度和高光特性,實現語義感知任意材料估計。3)可編輯:對於生成的模型或用戶自己的數據,用戶可以通過幾次點擊互動選擇任何區域,並通過基於文本的指導高效編輯紋理。大量實驗證明了HyperDreamer在建模具有高分辨率紋理的區域感知材料和實現用戶友好編輯方面的有效性。我們相信HyperDreamer有望推動3D內容創建的發展並在各個領域找到應用。
近年來,大規模文本到影片(T2V)擴散模型在視覺品質、動態和時間一致性方面取得了巨大進展。然而,生成過程仍然是一個黑盒子,其中所有屬性(例如外觀、動態)都是一起學習和生成的,除了粗略的文本描述之外,沒有精確的控制能力。受到圖像動畫的啟發,該方法將影片解耦為具有相應動態的特定外觀,我們提出了AnimateZero來揭示預先訓練的文本到影片擴散模型,即AnimateDiff,並為其提供更精確的外觀和動態控制能力。對於外觀控制,我們從文本到圖像(T2I)生成中借用中間潛在變數及其特徵,以確保生成的第一幀與給定的生成圖像相等。對於時間控制,我們將原始T2V模型的全局時間注意力替換為我們提出的位置校正窗口注意力,以確保其他幀與第一幀良好對齊。借助所提出的方法,AnimateZero可以成功控制生成過程,無需進一步訓練。作為給定圖像的零樣本圖像動畫製作者,AnimateZero還可以實現多個新應用,包括交互式視頻生成和真實圖像動畫。詳細的實驗證明了所提出方法在T2V及相關應用中的有效性。
強化學習(RL)提供了一個多功能框架,用於實現長期目標。其通用性使我們能夠形式化一系列現實世界智能系統遇到的問題,例如處理延遲獎勵、處理部分可觀察性、應對探索和利用困境、利用離線數據來改善在線性能,以及確保滿足安全限制。儘管強化學習研究界在解決這些問題方面取得了相當大的進展,但現有的開源強化學習庫往往專注於強化學習解決方案流程的一個狹窄部分,而其他方面則大多被忽視。本文介紹了 Pearl,一個可供生產使用的強化學習代理軟件包,明確設計為以模塊化方式應對這些挑戰。除了介紹初步的基準結果外,本文還強調了 Pearl 在工業中的應用,以展示其在生產中的可用性。Pearl 在 Github 上以開源方式提供,網址為 github.com/facebookresearch/pearl,官方網站位於 pearlagent.github.io。
最近,擴散模型在文本到圖像(T2I)生成方面取得了顯著進展,能夠合成具有高保真度和多樣內容的圖像。儘管有這一進展,擴散模型內的潛在空間平滑性仍然很少被探索。平滑的潛在空間確保對輸入潛在的微小扰動對應於輸出圖像的穩定變化。這種特性在包括圖像插值、反演和編輯在內的下游任務中證明了其益處。在這項工作中,我們通過觀察由於微小潛在變化而導致的明顯視覺波動,揭示了擴散潛在空間的非平滑性。為了應對這個問題,我們提出了平滑擴散,這是一類新的擴散模型,可以同時具有高性能和平滑性。具體來說,我們引入了逐步變化正則化,以強制施加任意輸入潛在的變化與輸出圖像的變化之間的比例在任何擴散訓練步驟中保持恆定。此外,我們設計了一個插值標準差(ISTD)指標,有效評估擴散模型的潛在空間平滑性。廣泛的定量和定性實驗表明,平滑擴散不僅在T2I生成方面表現突出,而且在各種下游任務中也是更理想的解決方案。平滑擴散被實現為一個即插即用的Smooth-LoRA,可與各種社區模型配合使用。代碼可在https://github.com/SHI-Labs/Smooth-Diffusion 找到。
本研究探索基於Transformer的擴散模型,用於影像和視頻生成。儘管Transformer架構在各個領域佔主導地位,因其靈活性和可擴展性,但在視覺生成領域主要使用基於CNN的U-Net架構,特別是在基於擴散的模型中。我們引入GenTron,一系列採用Transformer-based擴散的生成模型,以填補這一空白。我們的初始步驟是將Diffusion Transformers(DiTs)從類別調整為文本條件,這一過程包括對條件機制進行深入的實證探索。然後,我們將GenTron從約900M擴展到超過3B參數,觀察到視覺質量顯著提升。此外,我們將GenTron擴展到文本到視頻生成,並納入新穎的無運動引導以提升視頻質量。在與SDXL的人類評估中,GenTron在視覺質量方面取得51.1%的勝率(19.8%的平局率),在文本對齊方面取得42.3%的勝率(42.9%的平局率)。GenTron在T2I-CompBench中也表現出色,突顯其在組合生成方面的優勢。我們相信這項工作將提供有意義的見解,並成為未來研究的寶貴參考。
我們提出了 NeRFiller,一種通過使用現成的 2D 視覺生成模型進行生成式 3D 填充來完成 3D 捕獲中缺失部分的方法。通常,由於網格重建失敗或觀察不足(例如接觸區域,如物體底部或難以觸及的區域),捕獲的 3D 場景或物體的某些部分會缺失。我們通過利用 2D 填充擴散模型來應對這個具有挑戰性的 3D 填充問題。我們識別了這些模型的一個令人驚訝的行為,即當圖像形成 2x2 網格時,它們生成更具 3D 一致性的填充,並展示了如何將此行為推廣到超過四個圖像。然後,我們提出了一個迭代框架,將這些填充區域提煉成一個一致的 3D 場景。與相關作品相比,我們專注於完成場景而不是刪除前景物體,我們的方法不需要緊密的 2D 物體遮罩或文本。我們在各種場景上將我們的方法與適應我們設置的相關基準進行比較,其中 NeRFiller 創建了最具 3D 一致性和可信度的場景完成。我們的項目頁面位於 https://ethanweber.me/nerfiller。
最近擴散模型在合成圖像質量和生成控制方面均有所改善。我們提出了Gen2Det,這是一個簡單的模塊化流程,通過利用最先進的基於圖像生成的方法,免費創建用於物體檢測的合成訓練數據。與現有方法不同,這些方法生成單個物體實例,需要識別前景,然後將其貼在其他圖像上,我們簡化為直接生成以場景為中心的圖像。除了合成數據外,Gen2Det還提出了一套技術,以最佳方式利用生成的數據,包括圖像級過濾、實例級過濾以及更好的訓練配方,以應對生成過程中的不完美之處。使用Gen2Det,我們展示了在各種設置下對物體檢測和分割任務的顯著改進,並且不受檢測方法的限制。在LVIS的長尾檢測設置中,Gen2Det大幅提高了罕見類別的性能,同時還顯著提高了其他類別的性能,例如,相對於僅在LVIS上使用Mask R-CNN的真實數據進行訓練,我們看到Box AP提高了2.13,Mask AP提高了1.84。在COCO的低數據範疇設置中,Gen2Det持續提高了Box和Mask AP,分別提高了2.27和1.85個點。在最一般的檢測設置中,Gen2Det仍然展示出穩健的性能增益,例如,它提高了COCO上的Box和Mask AP分別為0.45和0.32個點。
使用擴散模型進行定制生成在圖像生成方面取得了令人印象深刻的進展,但在具有挑戰性的視頻生成任務中仍然不夠滿意,因為它需要對主題和動作的可控性。為此,我們提出了DreamVideo,這是一種從幾張所需主題的靜態圖像和幾個目標運動的視頻生成個性化視頻的新方法。DreamVideo將這一任務分解為兩個階段,即主題學習和運動學習,通過利用預訓練的視頻擴散模型。主題學習旨在從提供的圖像中準確捕捉主題的精細外觀,這是通過結合文本反演和我們精心設計的身份適配器的微調來實現的。在運動學習中,我們設計了一個運動適配器並在給定的視頻上進行微調,以有效地建模目標運動模式。結合這兩個輕量級和高效的適配器,可以靈活定制任何主題和任何運動。大量的實驗結果證明了我們的DreamVideo在定制視頻生成方面優於當前最先進的方法。我們的項目頁面位於https://dreamvideo-t2v.github.io。
最近在文本到圖像模型方面取得的重大進展,開啟了使用合成圖像訓練視覺系統的可能性,潛在地克服了在大規模收集經過精心策劃的數據方面的困難。然而,目前尚不清楚這些模型在大規模情況下的表現,隨著訓練集中添加更多合成數據。本文研究了當前最先進的文本到圖像模型生成的合成圖像的擴展規律,用於監督模型的訓練:具有標籤監督的圖像分類器,以及具有語言監督的CLIP。我們確定了幾個因素,包括文本提示、無分類器指導規模和文本到圖像模型的類型,這些因素明顯影響了擴展行為。在調整這些因素後,我們觀察到合成圖像在CLIP訓練中呈現出與真實圖像類似但略遜一籌的擴展趨勢,而在訓練監督圖像分類器時明顯表現不佳。我們的分析表明,這種表現不佳的主要原因是現成的文本到圖像模型無法生成某些概念,這一限制嚴重影響了圖像分類器的訓練。我們的研究結果還表明,擴展合成數據在以下情況下可能特別有效:(1)當監督問題的真實圖像供應有限(例如,在ImageNet中少於50萬張圖像),(2)當評估數據集與訓練數據明顯不同,表明處於分布之外的情況,或(3)當合成數據與真實圖像一起使用,如在訓練CLIP模型時所示。
儘管擴散模型已顯示出生成逼真圖像的強大能力,但生成逼真且多樣化的影片仍處於起步階段。其中一個關鍵原因是當前方法將空間內容和時間動態糾纏在一起,導致文本到影片生成(T2V)的複雜度明顯增加。在這項工作中,我們提出了HiGen,一種基於擴散模型的方法,通過從結構級別和內容級別兩個角度解耦影片的空間和時間因素,從而提高性能。在結構級別上,我們將T2V任務分解為兩個步驟,包括空間推理和時間推理,使用統一的去噪器。具體來說,在空間推理期間使用文本生成空間上一致的先驗,然後在時間推理期間從這些先驗生成時間上一致的運動。在內容級別上,我們從輸入影片的內容中提取兩種微妙的線索,分別可以表達運動和外觀變化。這兩種線索然後引導模型的訓練以生成影片,實現靈活的內容變化並增強時間穩定性。通過解耦的範式,HiGen能夠有效降低這一任務的複雜度,生成具有語義準確性和運動穩定性的逼真影片。大量實驗證明了HiGen相對於最先進的T2V方法的優越性能。