每日精選AI研究論文及翻譯
大型視覺語言模型(VLMs)在多模態感知和推理方面取得了顯著進展。此外,當無縫集成到具有身體的代理中時,這標誌著邁出了關鍵一步,朝著創建能夠制定計劃並精確執行命令的自主且具有上下文意識的系統的方向邁進。在本文中,我們介紹了章魚(Octopus),這是一種新型的VLM,旨在能夠熟練解讀代理的視覺和文本任務目標,並制定複雜的動作序列並生成可執行的代碼。我們的設計使代理能夠熟練處理各種任務,從模擬器中的日常琐事到複雜視頻遊戲中的精細互動。章魚是通過利用GPT-4來訓練的,以控制一個探索性代理生成訓練數據,即行動藍圖和相應的可執行代碼,在我們的實驗環境OctoVerse中。我們還收集了反饋,這使得增強訓練方案的強化學習與環境反饋(RLEF)成為可能。通過一系列實驗,我們闡明了章魚的功能性並提出了引人入勝的結果,提出的RLEF證明能夠改進代理的決策能力。通過開源我們的模型架構、模擬器和數據集,我們希望激發進一步的創新並促進更廣泛的具有身體AI社區內的合作應用。
我們介紹 Lemur 和 Lemur-Chat,這兩個開放存取的語言模型被優化,旨在兼顧自然語言和編碼能力,以擔任多功能語言代理的核心。從語言聊天模型演變為功能性語言代理需要模型不僅精通人類互動、推理和規劃,還要確保在相關環境中具有基礎。這要求模型在語言和編碼能力之間取得和諧的平衡。Lemur 和 Lemur-Chat 被提議來應對這種必要性,展示了在兩個領域中均衡的專業能力,與現有傾向於專精於其中一個領域的開源模型不同。通過精心的預訓練,使用代碼密集的語料庫,以及在文本和代碼數據上進行指導微調,我們的模型在各種文本和編碼基準測試中實現了最先進的平均表現,超越了現有的開源模型。全面的實驗證明了 Lemur 在各種涉及人類溝通、工具使用和在完全可觀察和部分可觀察環境下進行互動的代理任務中的優越性。自然語言和編程語言之間的協調使 Lemur-Chat 能夠大幅縮小與專有模型在代理能力上的差距,為開發具有推理、規劃和在各種環境中無縫運作能力的先進開源代理提供了關鍵見解。https://github.com/OpenLemur/Lemur
我們介紹了一個名為「從構想到圖像」的系統,該系統利用GPT-4V(ision)進行多模式迭代自我完善,用於自動圖像設計和生成。人類可以通過迭代探索快速識別不同文本到圖像(T2I)模型的特徵。這使他們能夠將高層次生成構想有效轉換為能夠生成良好圖像的T2I提示。我們研究基於大型多模式模型(LMMs)的系統是否能夠發展出類似的多模式自我完善能力,從而能夠通過自我完善的嘗試來探索未知模型或環境。Idea2Img週期性生成修訂的T2I提示以合成草稿圖像,並提供了對提示修訂的方向性反饋,均取決於其對被探測的T2I模型特徵的記憶。迭代自我完善使Idea2Img在自動圖像設計和生成方面具有各種優勢。值得注意的是,Idea2Img能夠處理交錯的圖像-文本序列輸入構想,遵循設計指示的構想,並生成具有更好語義和視覺品質的圖像。用戶偏好研究驗證了多模式迭代自我完善對自動圖像設計和生成的有效性。
近年來,從文本提示生成3D資產展現出令人印象深刻的成果。無論是2D還是3D擴散模型都能夠基於提示生成出不錯的3D物體。3D擴散模型具有良好的3D一致性,但由於可訓練的3D數據昂貴且難以獲得,其質量和泛化能力有所限制。2D擴散模型具有強大的泛化和精細生成能力,但難以保證3D一致性。本文嘗試通過最近的明確且高效的3D高斯飛灰表示法,將兩種類型的擴散模型的能力進行融合。提出了一個名為\name 的快速3D生成框架,其中3D擴散模型為初始化提供點雲先驗,而2D擴散模型則豐富了幾何和外觀。引入了噪點生長和顏色擾動操作以增強初始化的高斯模型。我們的\name 可以在一個GPU上在25分鐘內生成高質量的3D實例,比以往的方法快得多,同時生成的實例可以直接實時渲染。演示和代碼可在https://taoranyi.com/gaussiandreamer/找到。
儘管大規模文本轉圖像模型取得了顯著進展,實現超逼真的人類圖像生成仍然是一個令人嚮往但尚未解決的任務。現有模型如穩定擴散和 DALL-E 2 傾向於生成具有不連貫部分或不自然姿勢的人類圖像。為應對這些挑戰,我們的關鍵見解是人類圖像在多個粒度上從粗粒級身體骨架到細粒度空間幾何結構上具有結構性。因此,在一個模型中捕捉明確外觀與潛在結構之間的相關性對於生成連貫自然的人類圖像至關重要。為此,我們提出了一個統一框架 HyperHuman,用於生成高逼真度和多樣布局的野外人類圖像。具體來說,1)我們首先建立了一個大規模以人為中心的數據集 HumanVerse,其中包含 3.4 億張圖像,具有全面的標註,如人體姿勢、深度和表面法線。2)接下來,我們提出了一個潛在結構擴散模型,同時對深度和表面法線進行降噪,並與合成的 RGB 圖像一起。我們的模型強化了圖像外觀、空間關係和幾何在一個統一網絡中的聯合學習,模型中的每個分支相互補充,具有結構意識和紋理豐富性。3)最後,為進一步提升視覺質量,我們提出了一個結構引導精煉器,用於構成更詳細生成更高分辨率的預測條件。大量實驗表明,我們的框架實現了最先進的性能,在不同場景下生成超逼真的人類圖像。項目頁面:https://snap-research.github.io/HyperHuman/
大規模預訓練擴散模型在各種視頻生成方面展現出卓越的能力。給定一組相同運動概念的視頻片段,運動定制的任務是適應現有的文本到視頻擴散模型,以生成具有這種運動的視頻。例如,生成一部汽車按照特定的方式移動並在特定的攝像機運動下製作電影,或者展示一隻熊如何舉重以激發創作者。已經開發了用於定制外觀(如主題或風格)的適應方法,但對於運動尚未探索。將主流適應方法擴展到運動定制是直觀的,包括完整模型調整、額外層的參數高效調整以及低秩適應(LoRAs)。然而,這些方法學習的運動概念通常與訓練視頻中的有限外觀相耦合,使得將定制的運動概念推廣到其他外觀變得困難。為了克服這一挑戰,我們提出了MotionDirector,採用雙路徑LoRAs架構來解耦外觀和運動的學習。此外,我們設計了一種新穎的外觀去偏差時間損失,以減輕外觀對時間訓練目標的影響。實驗結果表明,所提出的方法可以生成具有多樣外觀的定制運動視頻。我們的方法還支持各種下游應用,例如將不同視頻的外觀和運動分別混合,以及對單張圖像進行定制運動動畫化。我們的代碼和模型權重將被釋出。