每日精選AI研究論文及翻譯
我們發現常見的擴散噪聲時間表並未強制最後一時間步具有零信噪比(SNR),而一些擴散取樣器的實作並未從最後一時間步開始。這樣的設計存在缺陷,並未反映模型在推論時受到純高斯噪聲的事實,造成訓練與推論之間存在差異。我們展示了這種有缺陷的設計在現有實作中導致了真實問題。在穩定擴散中,這嚴重限制了模型僅能生成中等亮度的圖像,並阻止其生成非常明亮和暗的樣本。我們提出了一些簡單的修正:(1)重新調整噪聲時間表以強制零終端SNR;(2)用v預測訓練模型;(3)更改取樣器以始終從最後一時間步開始;(4)重新調整無分類器引導以防止過曝。這些簡單的改變確保了訓練和推論之間擴散過程的一致性,並使模型能夠生成更符合原始數據分佈的樣本。
本文介紹了FitMe,一個臉部反射模型和可微分渲染優化流程,可用於從單張或多張圖像中獲取高保真可渲染的人類頭像。該模型包括一個多模態風格生成器,以擷取臉部外觀的漫反射和鏡面反射,以及基於PCA的形狀模型。我們採用了一個快速可微分渲染過程,可應用於優化流程,同時實現了逼真的臉部著色。我們的優化過程通過利用基於風格的潛在表示和形狀模型的表達能力,準確捕捉了高細節的臉部反射和形狀。FitMe在單張“野外”臉部圖像上實現了最先進的反射獲取和身份保留,同時在提供多個與同一身份相關的無限制臉部圖像時,產生了令人印象深刻的掃描式結果。與最近的隱式頭像重建相比,FitMe僅需一分鐘,即可生成可重新照明的基於網格和紋理的頭像,可供最終用戶應用使用。
擴散模型在文本到圖像生成方面表現出色,特別是在以主題驅動的個性化圖像生成方面。然而,由於現有方法需要進行特定主題的微調,這在計算上是耗費大量資源的,並且阻礙了有效部署。此外,現有方法在多主題生成方面存在困難,因為它們通常會在不同主題之間混合特徵。我們提出了FastComposer,它實現了高效、個性化、多主題文本到圖像生成,而無需進行微調。FastComposer使用由圖像編碼器提取的主題嵌入來擴充擴散模型中的通用文本條件,實現基於主題圖像和文本指示的個性化圖像生成,僅需前向傳遞。為了解決多主題生成中的身份混合問題,FastComposer在訓練過程中提出了交叉注意力定位監督,強制參考主題的注意力集中在目標圖像的正確區域。僅僅基於主題嵌入進行條件設置會導致主題過度擬合。FastComposer提出了在去噪步驟中延遲主題條件設置,以在以主題驅動的圖像生成中保持身份和可編輯性。FastComposer生成了多個不同風格、動作和情境的未見個體的圖像。與基於微調的方法相比,FastComposer實現了300倍至2500倍的加速,並且對於新主題不需要額外的存儲空間。FastComposer為高效、個性化和高質量的多主題圖像創作鋪平了道路。代碼、模型和數據集可在https://github.com/mit-han-lab/fastcomposer找到。
自動確定文本和相應圖像是否在語義上對齊對於視覺語言模型是一項重大挑戰,具有生成文本到圖像和圖像到文本任務的應用。在這項工作中,我們研究了用於自動文本-圖像對齊評估的方法。我們首先介紹了SeeTRUE:一個全面的評估集,涵蓋了來自文本到圖像和圖像到文本生成任務的多個數據集,其中包含人類對於給定的文本-圖像對是否在語義上對齊的判斷。然後,我們描述了兩種自動確定對齊的方法:第一種涉及基於問題生成和視覺問答模型的流程,第二種則採用了通過微調多模態預訓練模型的端對端分類方法。這兩種方法在各種文本-圖像對齊任務中均超越了先前的方法,在涉及複雜構圖或不自然圖像的挑戰性案例中取得了顯著改進。最後,我們展示了我們的方法如何能夠定位圖像和給定文本之間的特定不對齊,以及如何將它們用於在文本到圖像生成中自動重新排列候選項。
人類可以輕易理解一張圖像描繪多個潛在物體,使互動成為可能。我們利用這種技能來規劃與世界的互動,並加速對新物體的理解而無需進行互動。在本文中,我們希望賦予機器類似的能力,使智能代理能夠更好地探索3D場景或操作物體。我們的方法是基於Transformer的模型,用於預測物體的3D位置、物理特性和可供性。為了支持這個模型,我們收集了包含互聯網視頻、自我中心視頻和室內圖像的數據集,用於訓練和驗證我們的方法。我們的模型在我們的數據上表現出色,並且對機器人數據具有良好的泛化能力。
線上持續學習(Online continual learning, OCL)的研究主要集中在減輕災難性遺忘,並在整個代理人的壽命中固定和有限地配置存儲空間。然而,數據存儲成本的不斷降低突顯了許多應用並不遵循這些假設。在這些情況下,主要關注點在於管理計算開支而非存儲。本文針對這種情況,通過放寬存儲限制並強調固定、有限的經濟預算,探討了線上持續學習問題。我們提供了一個簡單的算法,可以在微小的計算預算下緊湊存儲和利用整個傳入數據流,使用k最近鄰(kNN)分類器和通用預訓練特徵提取器。我們的算法提供了一個對持續學習有吸引力的一致性特性:它永遠不會忘記過去看到的數據。我們在兩個大規模的線上持續學習數據集上設立了一個新的技術水準:Continual LOCalization(CLOC)數據集包含了712個類別的3900萬張圖像,以及Continual Google Landmarks V2(CGLM)數據集包含了10788個類別的58萬張圖像。我們的方法在減少過去數據的災難性遺忘和快速適應快速變化的數據流方面,勝過了在計算預算遠高於我們的方法。我們提供了代碼以重現我們的結果,網址為https://github.com/drimpossible/ACM。