每日精選AI研究論文及翻譯
擴散模型目前主導數據驅動圖像合成領域,其在大型數據集上的無與倫比的擴展能力。在本文中,我們識別並糾正了流行的ADM擴散模型架構中不均勻和無效訓練的幾個原因,而無需改變其高層結構。觀察到在訓練過程中網絡激活和權重中的不受控制的幅度變化和不平衡,我們重新設計了網絡層,以保持期望上的激活、權重和更新幅度。我們發現系統應用這一理念能夠消除觀察到的漂移和不平衡,使網絡在相同計算複雜度下顯著改善。我們的修改將ImageNet-512合成中以往的FID記錄從2.41改進到1.81,並使用快速確定性抽樣實現。 作為獨立貢獻,我們提出了一種方法來設置指數移動平均(EMA)參數後設,即在完成訓練運行後。這允許精確調整EMA長度,而無需進行多次訓練運行,並揭示了它與網絡架構、訓練時間和指導之間令人驚訝的互動。
我們介紹了一種創新的圖像提示多視圖擴散模型"ImageDream",用於3D物體生成。ImageDream以其能夠生成比現有最先進的圖像條件方法質量更高的3D模型而脫穎而出。我們的方法利用圖像中物體的標準攝像機協調,提高了視覺幾何準確性。該模型設計了各種級別的控制,在擴散模型內的每個塊基於輸入圖像,其中全局控制塑造了整體物體佈局,而局部控制微調了圖像細節。通過使用標準提示清單進行廣泛評估,證明了ImageDream的有效性。欲獲得更多信息,請訪問我們的專案頁面:https://Image-Dream.github.io。
重新照明的忠實度受到幾何和外觀表示的限制。在幾何方面,網格和體積方法都難以建模複雜的結構,如三維頭髮幾何。對於外觀,現有的重新照明模型在忠實度上受限,並且通常在高分辨率連續環境中渲染實時時速過慢。在這項工作中,我們提出了可重新照明的高忠實度頭像的高斯編碼化身方法,這些頭像可以被動畫化以生成新的表情。我們基於三維高斯模型的幾何模型可以捕捉三維一致的亞毫米細節,例如動態面部序列上的頭髮細絲和毛孔。為了以統一的方式支持人類頭部的各種材料,如眼睛、皮膚和頭髮,我們提出了一種基於可學習輻射傳輸的新型可重新照明外觀模型。結合用於漫射成分的全局照明感知球面調和,我們使用球形高斯實現了具有空間所有頻率反射的實時重新照明。這種外觀模型可以在點光源和連續照明下高效地重新照明。我們通過引入可重新照明的明確眼睛模型進一步提高了眼睛反射的忠實度並實現了明確的凝視控制。我們的方法在不影響實時性能的情況下勝過現有方法。我們還展示了在一個連接的消費者VR頭戴設備上對化身進行實時重新照明,展示了我們化身的效率和忠實度。
我們介紹了 X-Adapter,一個通用升級器,可使預訓練的即插即用模組(例如 ControlNet、LoRA)直接與升級後的文圖擴散模型(例如 SDXL)配合工作,無需進行進一步的重新訓練。我們通過訓練一個額外的網路來控制凍結的升級模型與新的文圖數據對。具體而言,X-Adapter 保留舊模型的凍結副本,以保留不同插件的連接器。此外,X-Adapter 添加可訓練的映射層,用於連接不同版本模型的解碼器,以進行特徵重映射。重映射的特徵將作為升級模型的指導。為了增強 X-Adapter 的指導能力,我們採用了一種針對升級模型的空文本訓練策略。在訓練後,我們還引入了一種兩階段去噪策略,以對齊 X-Adapter 和升級模型的初始潛在空間。由於我們的策略,X-Adapter 展示了與各種插件的通用兼容性,並且還使不同版本的插件能夠一起工作,從而擴展了擴散社區的功能。為驗證所提方法的有效性,我們進行了大量實驗,結果表明 X-Adapter 可能有助於在升級的基礎擴散模型中實現更廣泛的應用。
多模式大型語言模型(MLLMs)因其強大的多模式理解能力而受到重視。然而,現有研究在很大程度上依賴於特定模式的編碼器,這些編碼器通常在架構上有所不同,並且僅限於常見的模式。在本文中,我們提出了OneLLM,一種將八種模式與語言對齊的MLLM,並使用統一框架。我們通過統一的多模式編碼器和漸進式多模式對齊流程來實現這一目標。具體而言,我們首先訓練一個影像投影模組,將視覺編碼器與LLM相連接。然後,我們通過混合多個影像投影模組和動態路由來構建通用投影模組(UPM)。最後,我們使用UPM逐步將更多模式對齊到LLM。為了充分發揮OneLLM在遵循指示方面的潛力,我們還精心策劃了一個包括來自圖像、音頻、視頻、點雲、深度/法線圖、IMU和fMRI腦部活動的200萬項目的全面多模式指示數據集。OneLLM在25個不同的基準測試中進行評估,涵蓋多模式字幕、問答和推理等任務,表現出優異的性能。代碼、數據、模型和在線演示可在https://github.com/csuhan/OneLLM 上找到。
擴散模型最近在影像合成領域引起了革命,因為它們能夠生成逼真的影像。然而,擴散模型的一個主要缺點是影像生成過程耗費巨大。需要多次應用大型影像對影像網絡來從隨機噪音逐步精煉影像。雖然許多最近的研究提出了減少所需步驟數的技術,但通常將底層去噪網絡視為黑盒子。在這項研究中,我們調查了網絡內部層的行為,發現 1) 層的輸出隨時間平滑變化,2) 層展示出不同的變化模式,以及 3) 一步到另一步的變化通常非常小。我們假設去噪網絡中的許多層計算是多餘的。利用這一點,我們引入了區塊緩存,通過重複使用先前步驟的層區塊的輸出來加速推理。此外,我們提出了一種基於每個區塊隨時間變化的技術,自動確定緩存計劃的技術。在我們的實驗中,我們通過FID、人工評估和定性分析展示了區塊緩存能夠以相同的計算成本生成視覺品質更高的影像。我們對不同最新模型(LDM 和 EMU)和解決方案(DDIM 和 DPM)進行了演示。
我們提出LooseControl,以允許擴展式深度條件控制用於基於擴散的圖像生成。ControlNet,作為深度條件圖像生成的最先進技術,產生了卓越的結果,但依賴於對詳細深度圖的訪問。在許多情況下,創建這樣精確的深度圖是具有挑戰性的。本文介紹了一個通用版本的深度條件控制,可以啟用許多新的內容創建工作流程。具體而言,我們允許(C1)場景邊界控制,用於僅通過邊界條件粗略指定場景,以及(C2)3D框控制,用於指定目標對象的佈局位置,而不是對象的確切形狀和外觀。使用LooseControl,連同文本指導,用戶可以通過僅指定場景邊界和主要對象的位置來創建複雜的環境(例如房間,街景等)。此外,我們提供兩種編輯機制來完善結果:(E1)3D框編輯使用戶可以通過更改、添加或刪除框來完善圖像,同時凍結圖像的風格。這除了由編輯的框引起的變化外,幾乎沒有其他變化。 (E2)屬性編輯提出了可能的編輯方向,以更改場景的某個特定方面,例如整體對象密度或特定對象。通過廣泛的測試和與基準的比較,證明了我們方法的通用性。我們相信LooseControl可以成為一個重要的設計工具,用於輕鬆創建複雜環境,並可擴展到其他形式的引導通道。代碼和更多信息可在https://shariqfarooq123.github.io/loose-control/ 上找到。
對文本到圖像模型的定制技術為以往無法實現的廣泛應用打開了道路,使得能夠在不同背景和風格下生成特定概念成為可能。雖然現有方法能夠為個別概念或有限的預定義集合提供高保真度的定制,但在實現可擴展性方面仍有不足,即單個模型能夠無縫地呈現無數概念。本文提出了一個名為模塊化定制的新問題,旨在有效地合併為個別概念獨立進行微調的定制模型。這使得合併後的模型能夠共同合成一幅圖像中的概念,而不會影響保真度或增加任何額外的計算成本。 為了解決這個問題,我們引入了正交適應,這是一種旨在鼓勵在微調期間互不訪問的定制模型具有正交殘差權重的方法。這確保在推斷時,定制模型可以被最小干擾地相加。 我們提出的方法既簡單又多樣,適用於模型架構中幾乎所有可優化的權重。通過一系列定量和定性評估,我們的方法在效率和身份保留方面始終優於相關基準線,顯示出在擴散模型的可擴展定制方面取得了重大進展。
在視頻中編輯視覺內容仍然是一個艱鉅的挑戰,主要存在兩個問題:1) 直接且易於使用者控制以產生2) 在改變形狀、表情和佈局後不會出現難看的失真和人工痕迹的自然編輯結果。受到最近基於圖像的拖放風格編輯技術DragGAN的啟發,我們通過提出DragVideo來解決上述問題,其中採用類似的拖放風格用戶交互來編輯視頻內容,同時保持時間一致性。受到最近擴散模型(如DragDiffusion)的啟發,DragVideo包含了新穎的Drag-on-Video U-Net(DoVe)編輯方法,該方法通過優化由視頻U-Net生成的擴散視頻潛在變量來實現所需的控制。具體來說,我們使用了特定樣本的LoRA微調和相互自注意控制,以確保從DoVe方法中忠實重建視頻。我們還提供了一系列拖放風格視頻編輯的測試示例,並在各種具有挑戰性的編輯任務(如運動編輯、骨架編輯等)上進行了廣泛實驗,突顯了DragVideo的多功能性和普遍性。我們的代碼,包括DragVideo Web用戶界面,將會被釋出。
在這個時代,大型語言模型和文本到圖像模型的成功可以歸因於大規模數據集的推動力。然而,在3D視覺領域,雖然在使用大規模合成和真實捕獲的物體數據集(如Objaverse和MVImgNet)訓練的模型取得了顯著進展,但在人類中心任務領域中並未觀察到類似水平的進展,部分原因是缺乏大規模人類數據集。由於在獲取大規模高質量3D人類數據方面存在重大挑戰,現有的高保真3D人體捕獲數據集仍然規模中等。為了彌合這一差距,我們提出了MVHumanNet,這是一個包含4,500個人類身份的多視角人類動作序列數據集。我們的工作主要集中在收集具有大量不同身份和日常服裝的人類數據,使用多視角人體捕獲系統,實現了易於擴展的數據收集。我們的數據集包含9,000套日常服裝、60,000個運動序列和6.45億幀,具有廣泛的標註,包括人類遮罩、相機參數、2D和3D關鍵點、SMPL/SMPLX參數以及相應的文本描述。為了探索MVHumanNet在各種2D和3D視覺任務中的潛力,我們進行了關於視圖一致動作識別、人類NeRF重建、文本驅動視圖不受限制的人類圖像生成,以及2D視圖不受限制的人類圖像和3D頭像生成的初步研究。大量實驗證明了MVHumanNet提供的規模帶來的性能改進和有效應用。作為目前最大規模的3D人類數據集,我們希望MVHumanNet數據的發布和標註將促進在規模上進行進一步創新,涉及3D人類中心任務領域。
基於代理的建模已有數十年的歷史,並被廣泛應用於社會科學和自然科學領域。這種研究方法的範疇正準備隨著大型語言模型(LLM)提供的新功能而大幅擴展。生成式基於代理的模型(GABM)不僅僅是傳統的基於代理的模型(ABM),其中代理彼此交談。相反,GABM是利用LLM構建的,以將常識應用於情境中,表現“合理”,回憶起常見的語義知識,生成API調用以控制諸如應用程式之類的數字技術,並在模擬內部和對外部查看的研究人員之間進行溝通。在這裡,我們介紹了Concordia,這是一個用於構建和操作GABM的庫。Concordia使得構建語言中介模擬物理或數字環境變得容易。Concordia代理通過一個靈活的組件系統來生成其行為,這個系統在LLM調用和聯想記憶檢索之間進行調解。一個名為遊戲主持人(GM)的特殊代理,靈感來自桌上角色扮演遊戲,負責模擬代理互動的環境。代理通過用自然語言描述他們想要做的事情來採取行動。然後,GM將他們的行動轉換為適當的實現。在模擬的物理世界中,GM檢查代理行動的物理合理性並描述其影響。在模擬諸如應用程式和服務等技術的數字環境中,GM可能處理API調用以與外部工具集成,例如通用AI助手(例如Bard、ChatGPT)和數字應用程式(例如日曆、電子郵件、搜索等)。Concordia旨在支持廣泛的應用,無論是在科學研究中還是通過模擬用戶和/或生成合成數據來評估真實數字服務的性能。
3D重建方法,如神經輻射場(Neural Radiance Fields,簡稱NeRFs),擅長渲染複雜場景的逼真新視角。然而,恢復高質量的NeRF通常需要數十到數百張輸入圖像,導致耗時的捕捉過程。我們提出ReconFusion,僅使用少量照片重建現實世界場景。我們的方法利用擴散先驗進行新視角合成,該先驗在合成和多視圖數據集上進行訓練,對NeRF為基礎的3D重建流程進行正則化,以處理超出輸入圖像集所捕捉的新視角。我們的方法在不受約束的區域合成逼真的幾何和紋理,同時保留觀察區域的外觀。我們在各種現實世界數據集上進行了廣泛評估,包括前向和360度場景,展示了相對於先前少視角NeRF重建方法的顯著性能改進。
我們提出了一種控制物體材質屬性(如粗糙度、金屬質、反照率和透明度)的方法,應用於真實圖像。我們的方法利用了文本到圖像模型的生成先驗,該模型以逼真著稱,利用標量值和指令來改變低級材質屬性。鑒於缺乏具有受控材質屬性的數據集,我們生成了一個以物體為中心的合成數據集,其中包含基於物理的材料。通過在這個合成數據集上微調修改過的預訓練文本到圖像模型,我們能夠在保留所有其他屬性的同時編輯真實世界圖像中的材質屬性。我們展示了我們的模型對於編輯材質的 NeRFs 的潛在應用。
最近,在基於文本的動作生成方面取得了顯著進展,使得能夠生成符合文本描述的多樣且高質量的人類動作。然而,由於缺乏帶有詳細文本描述的數據集,生成細粒度或風格化動作仍然具有挑戰性。通過採用分而治之策略,我們提出了一個名為Fine-Grained Human Motion Diffusion Model(FG-MDM)的新框架用於人類動作生成。具體而言,我們首先通過利用大型語言模型(GPT-3.5)將先前模糊的文本標註解析為不同身體部位的細粒度描述。然後,我們使用這些細粒度描述來引導基於Transformer的擴散模型。FG-MDM能夠生成細粒度和風格化的動作,即使是在訓練數據的分佈之外。我們的實驗結果顯示了FG-MDM相對於先前方法的優越性,特別是強大的泛化能力。我們將釋出我們對HumanML3D和KIT進行的細粒度文本標註。
我們對視覺世界的理解圍繞著各種概念軸展開,這些軸表徵著視覺實體的不同方面。儘管不同的概念軸可以通過語言輕鬆指定,例如顏色,但沿著每個軸的視覺細微差異常常超出語言表達的限制,例如特定的繪畫風格。在這項工作中,我們的目標是通過簡單地提煉大型預訓練的視覺語言模型,學習一種以語言為基礎的視覺概念表示。具體來說,我們訓練一組概念編碼器來編碼與一組以語言為基礎的概念軸相關的信息,其目標是通過預先訓練的文本到圖像(T2I)模型重現輸入圖像。為了促進不同概念編碼器的更好分離,我們將概念嵌入錨定到從預先訓練的視覺問答(VQA)模型獲得的一組文本嵌入。在推論時,模型從新的測試圖像中提取沿著各種軸的概念嵌入,這些嵌入可以混合以生成具有視覺概念新組合的圖像。通過一個輕量級的測試時微調程序,它還可以泛化到訓練時未見過的新概念。
與虛擬助理的互動通常始於一個觸發詞語,接著是一個指令。在這項研究中,我們探索了通過消除觸發詞語的需求來使這些互動更加自然的可能性。我們的目標是通過從設備麥克風記錄的流式音頻獲得的信號來確定用戶是否在與虛擬助理對話。我們通過將自動語音識別系統的1-best假設和解碼器信號與音頻編碼器的聲學表示結合為輸入特徵,輸入到大型語言模型(LLM)中來解決這個任務。特別地,我們對僅需要少量訓練數據並且可以在僅有一個凍結的LLM可用於設備的情況下運行的數據和資源高效系統感興趣。因此,我們的模型是通過使用低秩適應和前綴調整的組合,在80k或更少的多模態數據示例上進行訓練。我們將所提出的系統與單模基線進行比較,並顯示多模態方法實現了更低的等錯率(EERs),同時僅使用訓練數據的一小部分。我們還表明,低維度的專門音頻表示導致比高維度的一般音頻表示更低的EERs。