每日精選AI研究論文及翻譯
我們介紹 InternLM-XComposer2,一款領先的視覺語言模型,在自由形式文本-圖像合成和理解方面表現優異。該模型超越傳統的視覺語言理解,熟練地從各種輸入中製作交錯的文本-圖像內容,如輪廓、詳細的文本規範和參考圖像,實現高度可定制的內容創作。InternLM-XComposer2提出了一種部分LoRA(PLoRA)方法,將額外的LoRA參數專門應用於圖像標記,以保留預訓練語言知識的完整性,找到精確的視覺理解和具有文學才能的文本組合之間的平衡。實驗結果顯示,基於InternLM2-7B,InternLM-XComposer2在生成高質量長文本多模態內容方面優越,並在各種基準測試中表現出色的視覺語言理解性能,不僅明顯優於現有的多模態模型,還在某些評估中與甚至超越GPT-4V和Gemini Pro。這凸顯了它在多模態理解領域的卓越能力。InternLM-XComposer2系列模型,擁有7B參數,可在https://github.com/InternLM/InternLM-XComposer 公開獲得。
對於大型視覺語言模型(LVLMs),擴展模型可以有效提高性能。然而,擴展模型參數會顯著增加訓練和推斷成本,因為計算中每個標記都會激活所有模型參數。在這項工作中,我們提出了一種新的訓練策略 MoE-tuning 用於 LVLMs,可以構建一個稀疏模型,具有驚人數量的參數,但恆定的計算成本,並有效解決了通常與多模態學習和模型稀疏性相關的性能下降問題。此外,我們提出了 MoE-LLaVA 框架,一種基於 MoE 的稀疏 LVLM 結構。該框架在部署期間僅通過路由器激活前 k 個專家,使其餘專家保持非活動狀態。我們的廣泛實驗突出了 MoE-LLaVA 在視覺理解方面的出色能力,以及減少模型輸出幻覺的潛力。值得注意的是,僅激活 30 億個參數的 MoE-LLaVA 在各種視覺理解數據集上展現出與 LLaVA-1.5-7B 相當的性能,甚至在物體幻覺基準測試中超越了 LLaVA-1.5-13B。通過 MoE-LLaVA,我們旨在為稀疏 LVLMs 建立基準,並為未來開發更高效和更有效的多模態學習系統提供寶貴見解。代碼已發布在 https://github.com/PKU-YuanGroup/MoE-LLaVA。
大型語言模型是在網絡上龐大的抓取資料上進行訓練的,這些資料通常是非結構化的、噪聲干擾大且措辭不佳。目前的擴展規律顯示,從這些資料中學習需要豐富的計算資源和數據,並且隨著被訓練模型的大小而增長。由於預訓練所需的大量計算成本和時間,以及網絡上高質量資料的日益稀缺,這變得不可行。在這項研究中,我們提出了Web Rephrase Augmented Pre-training (WRAP) 方法,該方法利用一個即插即用的指令調整模型,提示對網絡上的文件進行改寫,以特定風格,如“類似維基百科”或“問答格式”,來聯合預訓練大型語言模型(LLMs)的真實和合成改寫。首先,我們展示了在自然噪聲干擾大的C4數據集上使用WRAP可以將預訓練速度提高至3倍。在相同的預訓練計算預算下,它平均改善了Pile不同子集的困惑度超過10%,並且在13個任務的零-shot問答準確性上提高了超過2%。其次,我們研究了改寫風格對模型性能的影響,提供了有關訓練資料組成如何影響LLMs在OOD環境中性能的見解。我們的收益歸因於改寫的合成資料比僅有真實資料具有更高的效用,因為它(i)包含緊密反映下游評估風格的風格多樣性,並且(ii)比網絡抓取資料具有更高的“質量”。
我們介紹了Motion-I2V,一個新穎的框架,用於一致且可控的影像到影片生成(I2V)。與直接學習複雜的影像到影片映射的先前方法不同,Motion-I2V將I2V分解為兩個階段,並具有明確的運動建模。對於第一階段,我們提出了基於擴散的運動場預測器,專注於推斷參考影像像素的軌跡。對於第二階段,我們提出了運動增強的時間注意力,以增強視頻潛在擴散模型中有限的一維時間注意力。該模塊可以在第一階段預測的軌跡的指導下,有效地將參考影像的特徵傳播到合成幀。與現有方法相比,Motion-I2V可以生成更一致的視頻,即使存在大幅運動和視角變化。通過為第一階段訓練稀疏軌跡ControlNet,Motion-I2V可以支持用戶通過稀疏軌跡和區域標註精確控制運動軌跡和運動區域。這比僅僅依靠文本指令提供了更多對I2V過程的可控性。此外,Motion-I2V的第二階段自然支持零樣本視頻到視頻的轉換。定性和定量比較展示了Motion-I2V在一致且可控的影像到影片生成方面相對於先前方法的優勢。
近年來,在機器人強化學習(RL)領域取得了顯著進展,使得能夠處理複雜的影像觀測、在現實世界中進行訓練,並整合輔助數據,如示範和先前經驗的方法成為可能。然而,儘管取得了這些進展,機器人RL 仍然難以應用。實踐者們普遍認為,這些算法的具體實施細節通常與算法的選擇一樣重要(甚至更重要)以獲得良好的性能。我們認為機器人RL廣泛應用以及進一步發展機器人RL方法所面臨的一個重大挑戰是這些方法的相對難以接近。為應對這一挑戰,我們開發了一個精心實施的庫,其中包含一個範例高效的離線深度RL方法,以及用於計算獎勵和重置環境的方法,一個廣泛採用的機器人的高質量控制器,以及一些具有挑戰性的示例任務。我們將此庫提供給社區作為資源,描述其設計選擇並呈現實驗結果。也許令人驚訝的是,我們發現我們的實施可以實現非常高效的學習,在 PCB 板組裝、電纜路由和物體重新定位等任務上,每個策略平均訓練時間為 25 到 50 分鐘,優於文獻中報告的類似任務的最新結果。這些策略實現了完美或接近完美的成功率,即使在受干擾的情況下也具有極高的韌性,並展現出自發性的恢復和修正行為。我們希望這些令人鼓舞的結果和我們高質量的開源實現將為機器人社區提供一個工具,以促進機器人RL的進一步發展。我們的代碼、文檔和視頻可在 https://serl-robot.github.io/ 找到。
從語音合成3D面部動畫已經引起相當大的關注。由於高質量的4D面部數據和豐富多模標籤的稀缺性,先前的方法通常受限於有限的真實感和缺乏靈活的條件。我們通過三部曲來應對這一挑戰。首先,我們引入了廣義神經參數化面部資產(GNPFA),這是一個高效的變分自編碼器,將面部幾何和圖像映射到高度泛化的表情潛在空間,解耦表情和身份。然後,我們利用GNPFA從大量視頻中提取高質量的表情和準確的頭部姿勢。這呈現了M2F-D數據集,一個大型、多樣化且掃描級的共語3D面部動畫數據集,具有豐富標註的情感和風格標籤。最後,我們提出了Media2Face,這是一個在GNPFA潛在空間中的擴散模型,用於共語面部動畫生成,接受來自音頻、文本和圖像的豐富多模引導。廣泛的實驗表明,我們的模型不僅在面部動畫合成方面實現了高保真度,還擴大了3D面部動畫中的表現力和風格適應性範圍。
基於多模式大型語言模型(MLLM)的移動設備代理已成為一個流行的應用。在本文中,我們介紹了Mobile-Agent,一個自主的多模式移動設備代理。Mobile-Agent首先利用視覺感知工具準確識別和定位應用程序前端界面中的視覺和文本元素。基於感知到的視覺上下文,它自主地規劃和分解複雜的操作任務,並逐步通過操作導航移動應用程序。與先前依賴應用程序的XML文件或移動系統元數據的解決方案不同,Mobile-Agent以一種以視覺為中心的方式,允許在各種移動操作環境中更大的適應性,從而消除了對系統特定定製的必要性。為了評估Mobile-Agent的性能,我們引入了Mobile-Eval,這是一個用於評估移動設備操作的基準。基於Mobile-Eval,我們對Mobile-Agent進行了全面評估。實驗結果表明,Mobile-Agent實現了顯著的準確性和完成率。即使在具有挑戰性的指令下,例如多應用程序操作,Mobile-Agent仍然能夠完成要求。代碼和模型將在https://github.com/X-PLUG/MobileAgent 上開源。
最近在大型預訓練文本到圖像模型方面取得的進展展示了前所未有的高質量以人為中心生成能力,然而,定制面部身份仍然是一個棘手的問題。現有方法無法確保穩定的身份保留和靈活的可編輯性,即使在訓練期間為每個主題提供了幾張圖像。在這項工作中,我們提出了StableIdentity,它允許僅使用一張面部圖像進行身份一致的重新語境化。更具體地說,我們使用一個帶有身份先驗的面部編碼器來編碼輸入的面部,然後將面部表示放入一個可編輯先驗的空間中,該空間是從名人名字構建的。通過結合身份先驗和可編輯性先驗,學習到的身份可以注入到各種語境中的任何位置。此外,我們設計了一個遮罩的兩階段擴散損失,以提升輸入面部的像素級感知並保持生成的多樣性。大量實驗證明我們的方法優於先前的定制方法。此外,所學習到的身份可以靈活地與諸如ControlNet等現成模塊結合使用。值得注意的是,據我們所知,我們是第一個在不進行微調的情況下,將從單張圖像中學習到的身份直接注入到視頻/3D生成中。我們相信,所提出的StableIdentity是統一圖像、視頻和3D定制生成模型的重要一步。
隨著大規模文本到圖像生成模型在文本到圖像生成領域取得顯著進展,許多微調方法已被提出。然而,這些模型常常在面對新物體時遇到困難,特別是在單次情境下。我們提出的方法旨在以物件為驅動方式解決泛化能力和忠實度方面的挑戰,僅使用單張輸入圖像和物件特定的感興趣區域。為了提高泛化能力並減輕過度擬合,在我們的範式中,會基於物件的外觀和類別初始化原型嵌入,然後微調擴散模型。在微調過程中,我們提出了一種類別特徵正則化方法,以保留對物件類別的先前知識。為了進一步提高忠實度,我們引入了物件特定損失,也可用於植入多個物件。總的來說,我們提出的以物件為驅動的新物件植入方法可以與現有概念無縫整合,同時具有高忠實度和泛化能力。我們的方法優於幾項現有作品。程式碼將會釋出。
儘管在文本轉圖像模型方面取得了顯著進展,以生成高質量圖像,這些方法仍然難以確保在複雜文本提示的情況下對圖像的可控性,特別是在保留物件屬性和關係方面。在本文中,我們提出了CompAgent,這是一種無需訓練的組合式文本轉圖像生成方法,其核心是一個大型語言模型(LLM)代理。CompAgent的基本理念是基於分治方法。給定一個包含多個概念(包括物件、屬性和關係)的複雜文本提示,LLM代理首先將其分解,這包括提取單個物件、它們相關的屬性,以及預測一個連貫的場景佈局。這些單個物件然後可以獨立地被征服。隨後,代理通過分析文本進行推理,計劃並使用工具來組合這些孤立的物件。最後,我們的代理還將驗證和人類反饋機制納入其中,以進一步糾正潛在的屬性錯誤並完善生成的圖像。在LLM代理的引導下,我們提出了一種無需調整的多概念定制模型和一種從佈局到圖像生成的模型作為概念組合的工具,以及一種局部圖像編輯方法作為與代理進行驗證的工具。在這些工具中,場景佈局控制著圖像生成過程,以防止多個物件之間的混淆。大量實驗證明了我們的組合式文本轉圖像生成方法的優越性:CompAgent在T2I-CompBench上實現了超過10%的改進,這是一個開放世界組合式T2I生成的綜合基準。對各種相關任務的擴展也說明了我們的CompAgent對潛在應用的靈活性。
現有的視覺語言模型在各種視覺領域和任務上展現出強大的泛化能力。然而,這些模型主要以閉集方式執行零-shot識別,因此在設計上難以處理開放域視覺概念。最近出現了一些微調方法,如提示學習,不僅研究了在分佈(ID)和非分佈(OOD)樣本之間的區分,而且在ID和OOD的準確性方面也表現出一定的改進。在本文中,我們首先證明了視覺語言模型在經過足夠長時間的微調後,若沒有適當的正則化,往往會過度擬合給定數據集中已知類別,導致對未知類別性能下降。然後,我們提出了一種新方法OGEN來解決這個問題,主要集中在改善微調模型的OOD泛化。具體來說,引入了一個類條件特徵生成器,用於僅使用任何未知類別的類名來合成OOD特徵。這些合成特徵將提供有關未知類別的有用知識,並有助於在聯合優化時規範ID和OOD數據之間的決策邊界。同樣重要的是我們的自適應自我蒸餾機制,在聯合優化期間規範我們的特徵生成模型,即在模型狀態之間自適應地轉移知識,以進一步防止過度擬合。實驗驗證了我們的方法在不同設置下在OOD泛化性能方面取得了令人信服的進展。