每日精選AI研究論文及翻譯
近期在多模態大型語言模型(MLLMs)方面的進展引人注目,然而,這些通用領域的 MLLMs 往往在理解和有效與使用者界面(UI)屏幕互動方面表現不佳。本文介紹了 Ferret-UI,這是一種針對增強對移動 UI 屏幕理解而量身定制的新型 MLLM,具備指代、基礎和推理能力。鑒於 UI 屏幕通常呈現更長的寬高比,並包含比自然圖像更小的感興趣對象(例如圖標、文本),我們在 Ferret 上增加了“任意分辨率”功能,以放大細節並利用增強的視覺特徵。具體而言,根據原始寬高比將每個屏幕分為 2 個子圖像(即,對於豎屏,進行水平分割,對於橫屏,進行垂直分割)。在發送到 LLMs 之前,這兩個子圖像將分別進行編碼。我們精心從廣泛的基本 UI 任務中收集訓練樣本,例如圖標識別、查找文本和小部件列舉。這些樣本被格式化為帶有區域標註的指示以促進準確的指代和基礎。為了增強模型的推理能力,我們進一步編制了一個用於高級任務的數據集,包括詳細描述、感知/互動對話和功能推斷。在精心策劃的數據集上訓練後,Ferret-UI 展現出對 UI 屏幕的出色理解能力和執行開放式指示的能力。為了對模型進行評估,我們建立了一個包含所有上述任務的全面基準。Ferret-UI 不僅在大多數開源 UI MLLMs 方面表現優異,而且在所有基本 UI 任務上均超越了 GPT-4V。
最近在文本轉視頻生成(T2V)領域取得了顯著進展,成功地從文字描述中合成了高質量的通用視頻。T2V 中一個被廣泛忽視的問題是現有模型未能充分編碼現實世界的物理知識,因此生成的視頻往往動作有限且變化不足。本文提出了MagicTime,一種變幻時間攝影視頻生成模型,該模型從時間攝影視頻中學習現實世界的物理知識並實現變幻生成。首先,我們設計了一個MagicAdapter方案來解耦空間和時間訓練,從變幻視頻中編碼更多物理知識,並轉換預訓練的T2V模型以生成變幻視頻。其次,我們引入了一種動態幀提取策略,以適應變幻時間攝影視頻,這些視頻具有更廣泛的變化範圍,涵蓋戲劇性的物體變幻過程,因此體現了比通用視頻更多的物理知識。最後,我們引入了一個Magic Text-Encoder來改進對變幻視頻提示的理解。此外,我們創建了一個名為ChronoMagic的時間攝影視頻文本數據集,專門為解鎖變幻視頻生成能力而精心策劃。大量實驗證明了MagicTime生成高質量和動態變幻視頻的優越性和有效性,表明時間攝影視頻生成是建立物理世界變幻模擬器的一條有前途的途徑。
有效編輯個人內容在幫助個人表達創意、在視覺故事中編織引人入勝的敘述,以及提升視覺內容的整體質量和影響力方面扮演著關鍵角色。因此,在這項工作中,我們介紹了一個名為SwapAnything的新框架,該框架可以將圖像中的任何物件與參考中給定的個性化概念進行交換,同時保持上下文不變。與現有的個性化主題交換方法相比,SwapAnything具有三個獨特優勢:(1) 對任意物件和部分進行精確控制,而不僅僅是主題,(2) 更忠實地保留上下文像素,(3) 更好地將個性化概念適應於圖像。首先,我們提出了針對性的變量交換,以在潛在特徵圖上應用區域控制,並交換遮罩變量以實現忠實的上下文保留和初始語義概念交換。然後,我們引入外觀適應,以在圖像生成過程中無縫地將語義概念調整到原始圖像中,包括目標位置、形狀、風格和內容。人類和自動評估的廣泛結果顯示,我們的方法在個性化交換方面顯著優於基準方法。此外,SwapAnything展示了其在單個物件、多個物件、部分物件和跨領域交換任務中的精確和忠實的交換能力。SwapAnything在基於文本的交換以及超越交換的任務,如物件插入方面也取得了出色的表現。
最近在基於擴散的生成式圖像編輯方面取得的進展引發了一場深刻的革命,重塑了圖像外部繪製和內部修補任務的格局。儘管取得了這些進展,但該領域仍面臨著固有挑戰,包括:i) 質量較差;ii) 一致性差;iii) 不足的指導遵循;iv) 生成效率亞優。為了應對這些障礙,我們提出了ByteEdit,一個精心設計的創新反饋學習框架,旨在提升、遵循和加速生成式圖像編輯任務。ByteEdit巧妙地整合了專注於提升美學和圖像-文本對齊的圖像獎勵模型,同時引入了一個針對促進輸出一致性而量身定制的密集像素級獎勵模型。此外,我們提出了一種開創性的對抗性和漸進式反饋學習策略,以加快模型的推理速度。通過大規模用戶評估,我們展示了ByteEdit在生成質量和一致性方面均超越了領先的生成式圖像編輯產品,包括Adobe、Canva和MeiTu。與基準模型相比,ByteEdit-Outpainting在質量和一致性方面分別顯著提高了388%和135%。實驗還證實,我們的加速模型在質量和一致性方面保持了出色的性能結果。
擴散模型已經在影像生成領域引起了革命,帶來了高質量模型和多樣化的下游應用的激增。然而,儘管取得了顯著進展,目前競爭性解決方案仍然存在一些限制,包括視覺質量較差、缺乏美感以及推理效率低下,並且尚無全面解決方案。為了應對這些挑戰,我們提出了UniFL,這是一個利用反饋學習全面增強擴散模型的統一框架。UniFL以其通用、有效和可推廣的特點脫穎而出,適用於各種擴散模型,如SD1.5和SDXL。值得注意的是,UniFL包含三個關鍵組件:知覺反饋學習,用於增強視覺質量;解耦反饋學習,用於提高美感;對抗反饋學習,用於優化推理速度。深入的實驗和廣泛的用戶研究驗證了我們提出的方法在提升生成模型質量和加速方面的卓越性能。例如,UniFL在生成質量方面超越了ImageReward 17%的用戶偏好,並在4步推理中分別比LCM和SDXL Turbo高出57%和20%。此外,我們已經驗證了我們方法在下游任務中的有效性,包括Lora、ControlNet和AnimateDiff。
在影片中恢復密集且長距離的像素運動是一個具有挑戰性的問題。部分困難來自於3D轉2D投影過程,導致2D運動領域中的遮蔽和不連續性。雖然2D運動可能復雜,但我們認為潛在的3D運動通常是簡單且低維的。在這項研究中,我們提出通過估計3D空間中的點軌跡來緩解圖像投影引起的問題。我們的方法名為「空間追蹤器」,使用單眼深度估算器將2D像素提升到3D,使用三平面表示有效地表示每個幀的3D內容,並使用變換器執行迭代更新以估算3D軌跡。在3D中進行追蹤使我們能夠利用盡可能剛性(ARAP)約束,同時學習將像素聚類到不同剛性部分的剛性嵌入。廣泛的評估顯示,我們的方法在質量和量化方面均實現了最先進的追蹤性能,特別是在具有挑戰性的情況下,如平面外旋轉。
對於現有的文本到圖像擴散模型來說,生成具有更高分辨率、細節和控制的以人為中心場景仍然是一個挑戰。這個挑戰源於有限的訓練圖像大小、文本編碼器容量(有限的標記)以及生成涉及多個人的複雜場景的固有困難。儘管當前的方法試圖僅解決訓練大小限制,但通常會產生帶有嚴重人為中心場景瑕疵的結果。我們提出了一個名為BeyondScene的新框架,克服了先前的限制,使用現有的預訓練擴散模型生成精美的更高分辨率(超過8K)以人為中心場景,具有出色的文本-圖像對應和自然性。BeyondScene採用分階段和分層方法,首先生成一個詳細的基本圖像,聚焦於實例創建中的關鍵元素,用於多人和超出擴散模型標記限制的詳細描述,然後無縫地將基本圖像轉換為超出訓練圖像大小的輸出,並通過我們提出的高頻注入前向擴散和自適應聯合擴散的新型實例感知分層擴大過程,將細節納入文本和實例意識,BeyondScene在與詳細文本描述和自然性方面超越了現有方法,為超越預訓練擴散模型容量的更高分辨率以人為中心場景創建的先進應用鋪平了道路,而無需昂貴的重新訓練。項目頁面:https://janeyeon.github.io/beyond-scene。
隨著大型語言模型(LLMs)的成功,將視覺模型整合到LLMs中,以建立視覺語言基礎模型,最近引起了更多的興趣。然而,現有基於LLM的大型多模態模型(例如Video-LLaMA、VideoChat)僅能處理有限數量的幀以進行短視頻理解。在本研究中,我們主要專注於設計一個高效且有效的模型,用於長期視頻理解。與大多數現有工作一樣,不是嘗試同時處理更多幀,我們提出以在線方式處理視頻,並將過去的視頻信息存儲在記憶庫中。這使得我們的模型能夠參考歷史視頻內容進行長期分析,而不會超出LLMs的上下文長度限制或GPU內存限制。我們的記憶庫可以無縫集成到當前的多模態LLMs中,以現成的方式。我們在各種視頻理解任務上進行了廣泛實驗,例如長視頻理解、視頻問答和視頻字幕生成,我們的模型在多個數據集上實現了最先進的性能。代碼可在https://boheumd.github.io/MA-LMM/找到。
在許多應用中,建模和渲染逼真的頭像至關重要。然而,現有的從視覺觀察構建3D頭像的方法往往難以重建穿著衣物的人類。我們引入了PhysAvatar,這是一個結合逆渲染和逆物理的新框架,可以自動從多視角視頻數據中估計人類的形狀和外觀,以及他們衣服的物理參數。為此,我們採用了一種基於網格對齊的4D高斯技術進行時空網格跟踪,以及一個基於物理的逆渲染器來估計內在材料特性。PhysAvatar集成了一個物理模擬器,以一種合理的方式使用基於梯度的優化來估計服裝的物理參數。這些新穎的功能使PhysAvatar能夠在訓練數據中未見的運動和照明條件下,創建穿著寬鬆衣物的頭像的高質量新視圖渲染。這標誌著在使用基於物理的逆渲染和物理環境的建模逼真數字人類方面的重大進步。我們的項目網站位於:https://qingqing-zhao.github.io/PhysAvatar
在快速發展的生成模型領域中,高效且高保真度的文本轉圖像擴散系統的開發代表著一個重要的前沿。本研究介紹了YaART,一種新型的產品級文本轉圖像級聯擴散模型,利用來自人類反饋的強化學習(RLHF)來對齊人類偏好。在YaART的開發過程中,我們特別關注模型和訓練數據集大小的選擇,這些方面在以往的文本轉圖像級聯擴散模型中並未得到系統性研究。特別是,我們全面分析了這些選擇如何影響訓練過程的效率以及生成圖像的質量,這在實踐中非常重要。此外,我們展示了在較小數據集上訓練的高質量圖像模型可以成功與在較大數據集上訓練的模型競爭,建立了更有效的擴散模型訓練場景。從質量的角度來看,YaART在許多現有的最先進模型中始終受到用戶的青睞。
本文介紹了MoMA:一種開放詞彙、無需訓練的個性化圖像模型,具有靈活的零樣本能力。隨著基礎文本到圖像模型迅速演進,對強大的圖像到圖像翻譯的需求也在增加。為了滿足這一需求,MoMA專注於以主題驅動的個性化圖像生成。我們利用開源的多模態大型語言模型(MLLM)訓練MoMA,使其同時兼具特徵提取器和生成器的雙重角色。這種方法有效地將參考圖像和文本提示信息相結合,產生有價值的圖像特徵,促進圖像擴散模型。為了更好地利用生成的特徵,我們進一步引入了一種新穎的自注意力快捷方法,有效地將圖像特徵轉移到圖像擴散模型,提高生成圖像中目標物體的相似性。顯著的是,作為一個調整自由的即插即用模塊,我們的模型僅需一個參考圖像,就能在生成具有高細節保真度、增強身份保留和提示忠實度的圖像方面勝過現有方法。我們的工作是開源的,從而普遍提供對這些進展的訪問。
我們提出了Diffusion-KTO,一種新穎的方法,用於對齊文本到圖像擴散模型,將對齊目標定義為最大化期望人類效用。由於該目標適用於每個生成獨立地,Diffusion-KTO不需要收集昂貴的成對偏好數據,也不需要訓練複雜的獎勵模型。相反,我們的目標需要簡單的每圖像二元反饋信號,例如喜歡或不喜歡,這些信號是豐富可得的。在使用Diffusion-KTO進行微調後,文本到圖像擴散模型在人類判斷和自動評估指標(如PickScore和ImageReward)方面表現優越,超越了現有技術,包括監督微調和Diffusion-DPO。總的來說,Diffusion-KTO發揮了利用易得的每圖像二元信號的潛力,擴大了對齊文本到圖像擴散模型與人類偏好的應用範圍。
Transformer已經催生了在計算機視覺和自然語言處理(NLP)領域的進展。然而,龐大的計算複雜度限制了它們在長上下文任務中的應用,比如高分辨率圖像生成。本文介紹了一系列從NLP中使用的RWKV模型改編而來的架構,並對擴散模型應用於圖像生成任務進行了必要的修改,稱為Diffusion-RWKV。與具有Transformer的擴散類似,我們的模型被設計為有效處理帶有額外條件的序列化的patchnified輸入,同時也能夠有效擴展,適應大規模參數和廣泛數據集。它的獨特優勢體現在其降低的空間聚合複雜度上,使其在處理高分辨率圖像方面非常擅長,從而消除了窗口化或組緩存操作的必要性。對於有條件和無條件的圖像生成任務的實驗結果表明,Diffison-RWKV在FID和IS指標上實現了與現有CNN或基於Transformer的擴散模型相當或超越的性能,同時顯著減少了總計算FLOP使用量。
最近擴散模型的進展在基於文本提示編輯2D圖像方面展現出卓越的能力。然而,將這些技術擴展到編輯神經輻射場(NeRF)中的場景是複雜的,因為編輯單獨的2D幀可能導致在多個視角之間出現不一致。我們的關鍵見解是,NeRF場景的幾何形狀可以作為整合這些2D編輯的橋樑。利用這種幾何形狀,我們使用一個深度條件的ControlNet來增強每個2D圖像修改的一致性。此外,我們引入了一種修補方法,利用NeRF場景的深度信息將2D編輯分佈到不同的圖像中,確保對錯誤和重採樣挑戰的魯棒性。我們的結果顯示,這種方法比現有的主導方法在基於文本的NeRF場景編輯方面實現了更一致、逼真和詳細的編輯。
長視頻問答是一項具有挑戰性的任務,涉及識別短期活動並推理其細粒度關係。最先進的視頻大型語言模型(vLLMs)因其在新任務上展現的新興能力而被認為是一種可行的解決方案。然而,儘管在數百萬個短短幾秒的視頻上進行了訓練,vLLMs仍無法理解長達數分鐘的視頻並準確回答有關它們的問題。為了解決這一限制,我們提出了一種輕量級且自監督的方法,即關鍵幀條件下的長視頻-LLM(Koala),該方法引入了可學習的時空查詢,以使預訓練的vLLMs能夠泛化到更長的視頻。我們的方法引入了兩種新的分詞器,這些分詞器以從稀疏視頻關鍵幀計算的視覺標記為條件,以理解短視頻和長視頻片段。我們在HowTo100M上訓練了我們提出的方法,並在零-shot長視頻理解基準上展示了其有效性,在所有任務中,其絕對準確度比最先進的大型模型高出3-6%。令人驚訝的是,我們還在實證中表明,我們的方法不僅有助於預訓練的vLLM理解長視頻,還提高了其在短期動作識別方面的準確性。