每日精選AI研究論文及翻譯
最近在影片擴散模型方面的進展展現出卓越的能力,能夠模擬真實世界的動態並保持三維一致性。這些進展激發了我們對這些模型潛力的探究,以確保在各種視角下實現動態一致性,這對於虛擬拍攝等應用非常理想。與現有方法不同,現有方法專注於對單個物體進行多視角生成以進行四維重建,我們的興趣在於從任意視角生成開放世界影片,並納入六自由度相機姿勢。為了實現這一目標,我們提出了一個即插即用模組,用於增強預訓練的文本到影片模型,以進行多攝影機影片生成,確保在不同視角下內容保持一致。具體來說,我們引入了一個多視角同步模組,以保持這些視角下的外觀和幾何一致性。鑒於高質量訓練數據的稀缺性,我們設計了一種混合訓練方案,利用多攝影機圖像和單眼影片來補充虛幻引擎渲染的多攝影機影片。此外,我們的方法還能實現有趣的擴展,例如從新視角重新渲染影片。我們還發布了一個名為 SynCamVideo-Dataset 的多視角同步影片數據集。項目頁面:https://jianhongbai.github.io/SynCamMaster/。
最近在文本到圖像(T2I)生成方面取得了顯著進展,成功地從文本生成高質量圖像。然而,現有的T2I模型在涉及多個物體和複雜關係的合成圖像生成方面表現出下降的性能。我們將這個問題歸因於現有圖像-文本配對數據集的局限性,缺乏對物體間精確關係的標註,僅提供提示。為了解決這個問題,我們構建了LAION-SG,這是一個大規模數據集,具有高質量的場景圖(SG)結構標註,精確描述多個物體的屬性和關係,有效地表示複雜場景中的語義結構。基於LAION-SG,我們訓練了一個新的基礎模型SDXL-SG,將結構標註信息融入生成過程中。大量實驗表明,在我們的LAION-SG上訓練的先進模型在複雜場景生成方面比現有數據集上的模型表現出顯著的性能改善。我們還引入了CompSG-Bench,這是一個評估模型在合成圖像生成方面的基準,為該領域建立了一個新的標準。
近期,視覺語言模型取得了顯著進展,在眾多任務中展現出優異表現,例如光學字符識別和複雜圖表分析。延續這一趨勢,我們介紹一款新的視覺語言模型,POINTS1.5,旨在在各種實際應用中脫穎而出。POINTS1.5 是 POINTS1.0 的升級版本,融入了幾項關鍵創新:i)我們將原始的 CLIP 視覺編碼器(具有固定圖像分辨率)替換為支持本地動態高分辨率的 NaViT-style 視覺編碼器。這使得 POINTS1.5 能夠處理任意分辨率的圖像,無需將其分割成瓷磚。ii)我們為 POINTS1.5 添加了雙語支持,顯著增強了其在中文方面的能力。由於開源中文數據集在視覺語言模型中的稀缺性,我們從互聯網收集了大量圖像,並使用手動和自動方法的組合對其進行了標註。iii)我們提出了一套嚴格的過濾方法,用於視覺指導調整數據集。我們全面評估了所有這些過濾方法,並選擇了最有效的方法來獲得最終的視覺指導調整集。由於這些創新,POINTS1.5 在各種實際應用中明顯優於 POINTS1.0,表現出色。值得注意的是,POINTS1.5-7B 在少於 40 億令牌的訓練下,在具有少於 100 億參數的模型中在 OpenCompass 排行榜上名列第一。
可控制人像生成旨在生成一幅人像,其條件是參考圖像,從而精確控制人物的外觀或姿勢。然而,先前的方法常常扭曲參考圖像中的細粒度紋理細節,儘管實現了高整體圖像質量。我們將這些扭曲歸因於未能適當關注參考圖像中的相應區域。為了解決這個問題,我們因此提出了在注意力中學習流場(Leffa),該方法明確引導目標查詢在訓練期間關注正確的參考關鍵。具體而言,通過在基於擴散的基線中的注意力映射頂部實現正則化損失。我們的大量實驗表明,Leffa在控制外觀(虛擬試穿)和姿勢(姿勢轉移)方面實現了最先進的性能,顯著減少了細粒度細節失真,同時保持了高圖像質量。此外,我們展示了我們的損失是與模型無關的,可以用於改善其他擴散模型的性能。
BrowserGym 生態系統應對日益增長的需求,有效評估和基準測試網頁代理,尤其是那些利用自動化和大型語言模型 (LLMs) 進行網頁交互任務的代理。許多現有的基準測試存在碎片化和不一致的評估方法論,使得難以進行可靠的比較和可重現的結果。BrowserGym 旨在通過提供統一的類健身房環境,具有明確定義的觀察和行動空間,促進跨多個基準測試的標準化評估。結合 AgentLab,一個輔助框架,有助於代理的創建、測試和分析,BrowserGym 在確保一致評估和全面實驗管理的同時,提供了整合新基準測試的靈活性。這種標準化方法旨在減少開發網頁代理的時間和複雜性,支持更可靠的比較,促進對代理行為的深入分析,可能導致更具適應性和能力的代理,從而加速 LLM 驅動的自動化創新。作為支持證據,我們進行了首次大規模、多基準測試的網頁代理實驗,並比較了目前在 BrowserGym 中所有基準測試中 6 個最先進的 LLMs 的性能。除其他發現外,我們的結果突顯了 OpenAI 和 Anthropic 最新模型之間的巨大差異,Claude-3.5-Sonnet 在幾乎所有基準測試中處於領先地位,只有在與視覺相關的任務中,GPT-4o 更為優越。儘管取得這些進展,我們的結果強調,由於現實世界網頁環境的固有複雜性和當前模型的限制,構建堅固高效的網頁代理仍然是一個重大挑戰。
儘管最近的基礎視頻生成器能夠產生視覺豐富的輸出,但它們仍然在外觀漂移方面遇到困難,即物體逐漸退化或在幀之間不一致地變化,破壞了視覺一致性。我們假設這是因為在特徵級別上缺乏明確的空間跟踪監督。我們提出了Track4Gen,這是一個具有空間感知能力的視頻生成器,它將視頻擴散損失與跨幀點跟踪相結合,提供了對擴散特徵的增強空間監督。Track4Gen通過對現有視頻生成架構進行最小更改,將視頻生成和點跟踪任務合併為一個單獨的網絡。使用穩定視頻擴散作為基礎,Track4Gen證明了將通常作為獨立任務處理的視頻生成和點跟踪統一起來是可能的。我們的廣泛評估顯示,Track4Gen有效地減少了外觀漂移,從而產生了時間穩定且視覺一致的視頻生成。項目頁面:hyeonho99.github.io/track4gen
風格控制在影片生成模型中已廣受歡迎。現有方法通常生成與給定風格相去甚遠的影片,導致內容泄漏,並難以將一個影片轉換為所需風格。我們的第一個觀察是風格提取階段至關重要,而現有方法強調全局風格卻忽略了局部紋理。為了在保持風格的同時引入紋理特徵並防止內容泄漏,我們基於提示-補丁相似性過濾與內容相關的補丁,同時保留風格補丁;對於全局風格提取,我們通過模型幻覺生成成對風格數據集以促進對比學習,從而極大增強了絕對風格一致性。此外,為了彌補圖像到影片的差距,我們在靜態影片上訓練了一個輕量級運動適配器,隱式增強了風格化程度,使我們在圖像上訓練的模型能夠無縫應用於影片。得益於這些努力,我們的方法StyleMaster 不僅在風格相似度和時間一致性方面取得了顯著改善,還可以輕鬆推廣至具有灰瓦控制網絡的影片風格轉換。大量實驗和視覺化展示了StyleMaster明顯優於競爭對手,有效生成與文本內容一致並與參考圖像風格密切相符的高質量風格化影片。我們的項目頁面位於https://zixuan-ye.github.io/stylemaster。
通用的前饋高斯模型通過利用大型多視角數據集中的先前知識,在稀疏視圖3D重建方面取得了顯著進展。然而,由於高斯數量有限,這些模型通常難以表示高頻細節。儘管在每個場景的3D高斯飛濺(3D-GS)優化中使用的密集化策略可以適應前饋模型,但可能不太適用於通用情況。在本文中,我們提出了生成密集化,這是一種高效且通用的方法,用於使前饋模型生成的高斯密集化。與3D-GS密集化策略不同,該策略通過迭代地分割和克隆原始高斯參數,我們的方法通過在單個前向傳遞中上採樣來自前饋模型的特徵表示,並生成相應的細高斯,利用嵌入的先前知識以增強泛化性。對象級和場景級重建任務的實驗結果表明,我們的方法優於同等或更小模型尺寸的最先進方法,在表示細節方面實現了顯著改進。
本文介紹了StreamChat,一種新方法,可增強大型多模態模型(LMMs)與串流視頻內容的互動能力。在串流互動場景中,現有方法僅依賴提問時刻可用的視覺信息,這導致模型對串流視頻後續變化一無所知,進而造成顯著延遲。StreamChat通過在每個解碼步驟中創新地更新視覺上下文,解決了這一限制,確保模型在整個解碼過程中利用最新的視頻內容。此外,我們引入了一種靈活高效的基於交叉注意力的架構,用於處理動態串流輸入,同時保持對串流互動的推理效率。此外,我們構建了一個新的密集指令數據集,以促進串流互動模型的訓練,並配合一個平行的3D-RoPE機制,將視覺和文本標記的相對時間信息進行編碼。實驗結果表明,StreamChat在已建立的圖像和視頻基準測試中取得了競爭性表現,在串流互動場景中展現出比最先進的視頻LMM更優越的能力。
使用預先訓練的文本到圖像(T2I)擴散/流模型來編輯真實圖像通常涉及將圖像反轉為其對應的噪聲地圖。然而,僅僅通過反轉通常無法獲得滿意的結果,因此許多方法在採樣過程中額外介入。這些方法可以獲得改善的結果,但在不同模型架構之間並不無縫適用。在這裡,我們介紹FlowEdit,這是一種針對預先訓練的T2I流模型的基於文本的編輯方法,它無需反轉、無需優化,並且與模型無關。我們的方法構建了一個常微分方程(ODE),直接映射源分佈和目標分佈(對應於源文本提示和目標文本提示),實現比反轉方法更低的運輸成本。這導致了最先進的結果,我們以Stable Diffusion 3和FLUX為例進行了說明。代碼和示例可在該項目的網頁上找到。
3D 空間推理是分析和解釋 3D 空間內物體的位置、方向和空間關係的能力。這使得模型能夠對 3D 場景進行全面理解,從而擴展了它們應用於更廣泛領域的能力,如自主導航、機器人技術和擴增/虛擬實境。雖然大型多模型模型(LMMs)在圖像和視頻理解的各種任務中取得了顯著進展,但它們在多樣自然圖像上進行 3D 空間推理的能力卻鮮少被研究。在這項工作中,我們提出了第一個全面的 3D 空間推理基準測試,3DSRBench,包含了 2,772 對手動標註的視覺問答對,涵蓋了 12 種問題類型。我們通過平衡數據分佈並採用一種新穎的 FlipEval 策略,對 3D 空間推理能力進行了堅固而全面的評估。為進一步研究相機 3D 觀點對 3D 空間推理的穩健性,我們的 3DSRBench 包括兩個子集,其中包含了關於具有常見和不常見觀點的成對圖像的 3D 空間推理問題。我們對各種開源和專有的 LMMs 進行基準測試,揭示了它們在 3D 意識的各個方面(如高度、方向、位置和多對象推理)以及在具有不常見相機觀點圖像上性能下降方面的局限性。我們的 3DSRBench 提供了有關具有強大 3D 推理能力的 LMMs 未來發展的寶貴發現和見解。我們的項目頁面和數據集可在 https://3dsrbench.github.io 上獲得。
在文本轉動作生成領域中,Bert類型的遮罩模型(MoMask,MMM)目前相較於GPT類型的自回歸模型(T2M-GPT)產生更高質量的輸出。然而,這些Bert類型模型通常缺乏適用於視頻遊戲和多媒體環境中所需的流式輸出能力,這是GPT類型模型固有的特點。此外,它們在分布外生成方面表現較弱。為了超越BERT類型模型的質量,同時利用GPT類型結構,而不添加使數據擴展變得複雜的額外精煉模型,我們提出了一種新穎的架構,Mogo(Motion Only Generate Once),通過訓練單個變壓器模型生成高質量逼真的3D人體動作。Mogo僅由兩個主要組件組成:1)RVQ-VAE,一種層次化殘差向量量化變分自編碼器,將連續運動序列離散化並具有高精度;2)層次因果變壓器,負責以自回歸方式生成基本運動序列,同時推斷不同層次之間的殘差。實驗結果表明,Mogo能夠生成長達260幀(13秒)的連續和循環運動序列,超越現有數據集(如HumanML3D)的196幀(10秒)長度限制。在HumanML3D測試集上,Mogo實現了0.079的FID分數,優於GPT類型模型T2M-GPT(FID = 0.116)、AttT2M(FID = 0.112)和BERT類型模型MMM(FID = 0.080)。此外,我們的模型在分布外生成方面實現了最佳的定量性能。
我們探索了一種新穎的視頻創作體驗,即通過示範進行視頻創作。給定一個示範視頻和來自不同場景的上下文圖像,我們生成一個在自然地延續上下文圖像並執行示範中動作概念的物理合理視頻。為實現這一功能,我們提出了delta-Diffusion,一種自監督訓練方法,通過有條件的未來幀預測從未標記的視頻中學習。與大多數現有的基於明確信號的視頻生成控制不同,我們採用了隱式潛在控制形式,以滿足一般視頻所需的最大靈活性和表達能力。通過在視頻基礎模型上設計外觀瓶頸,我們從示範視頻中提取動作潛在因素,以最小化外觀泄漏來條件生成過程。在實驗上,delta-Diffusion在人類偏好和大規模機器評估方面優於相關基準,並展示了對互動式世界模擬的潛力。生成的樣本視頻結果可在https://delta-diffusion.github.io/ 上找到。
大型語言模型被認為能夠捕捉現實世界知識,使其在許多下游任務中表現出色。儘管近年來取得了進展,這些模型仍然容易出現所謂的幻覺,導致它們生成不需要且事實不正確的文本。在這項工作中,我們提出了一種新的校準方法,可用於對抗幻覺。我們在模型的詞彙表中添加了一個特殊的「我不知道」(IDK)標記,並引入了一個將概率質量轉移到「我不知道」標記以修正不正確預測的客觀函數。這種方法使模型能夠明確地表達其輸出中的不確定性。我們在多個模型架構和事實性下游任務中評估了我們提出的方法。我們發現,使用我們的方法訓練的模型能夠在以前容易出錯的地方表達不確定性,同時僅損失少量編碼知識。我們進一步對我們方法的多種變體進行了廣泛的消融研究,並對我們方法的精確度-召回率折衷進行了詳細分析。
隨著大型語言模型(LLMs)的尺寸不斷增加,將這些模型適應特定任務或領域時會導致顯著的計算開銷和記憶體使用量。為了緩解這些挑戰,已經提出了各種參數高效微調(PEFT)方法,通過訓練一小組參數來進行模型權重的任務特定更新。在PEFT方法中,LoRA因其簡單和高效而脫穎而出,激發了一系列變體的發展。然而,LoRA及其後續版本忽略了與目標任務無關或無用的知識,對模型性能產生不利影響,導致次優性。為了解決這一限制,我們引入了知識感知奇異值調適(KaSA),這是一種PEFT方法,利用奇異值分解(SVD)和知識感知奇異值,根據其與當前任務的相關性動態激活知識。我們在跨越自然語言理解(NLU)、生成(NLG)、指令遵循和常識推理等任務的一系列LLMs上進行了廣泛實驗。實驗結果表明,KaSA在16個基準測試和4個合成數據集上始終優於FFT和其他14種流行的PEFT基準,突顯了我們方法的功效和適應性。我們方法的源代碼可在以下鏈接找到:https://github.com/juyongjiang/KaSA。
基於文本的風格轉移旨在將參考圖像的風格與文本提示描述的內容相融合。最近在文本到圖像模型方面的進展提高了風格轉換的微妙性,但仍存在重大挑戰,特別是對參考風格的過度擬合,限制風格控制以及與文本內容不一致。在本文中,我們提出三種互補策略來應對這些問題。首先,我們引入了一種跨模態自適應實例標準化(AdaIN)機制,以更好地整合風格和文本特徵,增強對齊。其次,我們開發了一種基於風格的無分類器引導(SCFG)方法,可以對風格元素進行選擇性控制,減少無關的影響。最後,在早期生成階段引入了一個教師模型,以穩定空間佈局並減輕瑕疵。我們的廣泛評估表明,在風格轉移質量和與文本提示的對齊方面取得了顯著改進。此外,我們的方法可以集成到現有的風格轉移框架中,無需進行微調。
在具身AI中,為訓練強健的語言引導代理創建高質量數據一直是一個持久的挑戰。本文介紹了一種自我精進數據飛輪(SRDF),通過兩個模型之間的協作,即指令生成器和導航器,迭代地精煉數據池來生成高質量且大規模的導航指令-軌跡對,而無需任何人為標註。具體而言,SRDF開始使用基礎生成器為基礎導航器創建初始數據池,然後應用訓練過的導航器來過濾數據池。這導致更高保真度的數據,以訓練更好的生成器,進而產生更高質量的數據,用於訓練下一輪的導航器。這樣的飛輪建立了一個數據自我精進過程,為大規模語言引導導航學習提供了持續改進和高效的數據集。我們的實驗表明,在經過幾輪飛輪後,導航器將經典R2R測試集上的性能邊界從70%提升至78% SPL,首次超越人類表現(76%)。與此同時,這個過程產生了一個優秀的生成器,通過SPICE從23.5提升至26.2,優於所有先前的VLN指令生成方法。最後,我們展示了我們方法的可擴展性,通過增加環境和指令多樣性,以及我們預訓練導航器在各種下游導航任務中的泛化能力,所有情況下均大幅超越了最先進的方法。
影像翻譯(IT)在各個領域具有巨大潛力,能夠將圖像中的文本內容翻譯成各種語言。然而,現有數據集往往存在規模、多樣性和質量方面的限制,阻礙了IT模型的發展和評估。為解決這一問題,我們引入了MIT-10M,這是一個大規模的多語言影像翻譯平行語料庫,包含超過1000萬個源自真實世界數據的影像文本對,經過了大量的數據清理和多語言翻譯驗證。其中包含了三種尺寸的840K張圖像,28個類別的任務,三個難度級別以及14種語言的影像文本對,這在現有數據集的基礎上有了顯著的改進。我們進行了大量實驗來評估和訓練MIT-10M上的模型。實驗結果清楚地表明,我們的數據集在評估模型應對現實世界中具有挑戰性和複雜的影像翻譯任務的表現時具有更高的適應性。此外,使用MIT-10M進行微調的模型性能相比基準模型提高了三倍,進一步確認了其優越性。