每日精選AI研究論文及翻譯
近年來大型語言模型(LLMs)的最新進展已經促成了能夠執行複雜任務的智能代理的誕生。本文介紹了一種基於新穎LLM的多模式代理框架,旨在操作智能手機應用程式。我們的框架使代理能夠通過簡化的操作空間來操作智能手機應用程式,模擬人類的互動方式,如點擊和滑動。這種新穎方法避免了對系統後端訪問的需求,從而擴大了其在各種應用程式中的應用範圍。我們代理功能的核心是其創新的學習方法。代理通過自主探索或觀察人類示範來學習如何導航和使用新應用程式。這個過程產生了一個知識庫,代理可以參考這個知識庫來執行跨不同應用程式的複雜任務。為了證明我們代理的實用性,我們在10個不同應用程式中進行了超過50個任務的廣泛測試,包括社交媒體、電子郵件、地圖、購物和複雜的圖像編輯工具。結果證實了我們代理在處理多樣高級任務方面的能力。
本文介紹了Paint3D,一個新穎的從粗到細的生成框架,能夠根據文本或圖像輸入,為未紋理化的3D網格生成高分辨率、無照明且多樣化的2K UV紋理貼圖。所解決的關鍵挑戰是生成高質量的紋理,而不包含嵌入的照明信息,這使得紋理可以在現代圖形管線中重新照明或重新編輯。為了實現這一目標,我們的方法首先利用預先訓練的深度感知2D擴散模型生成視角條件圖像,並進行多視角紋理融合,生成初始的粗糙紋理貼圖。然而,由於2D模型無法完全表示3D形狀並禁用照明效果,粗糙紋理貼圖呈現不完整區域和照明異常。為了解決這個問題,我們訓練了專門用於形狀感知精細化不完整區域和去除照明異常的獨立UV修補和UVHD擴散模型。通過這種從粗到細的過程,Paint3D可以生成高質量的2K UV紋理,保持語義一致性,同時無需照明,顯著推動了紋理化3D物體的最新技術。
最近個性化文本到圖像(T2I)模型的進步已經改變了內容創作,使非專家能夠生成具有獨特風格的令人驚嘆的圖像。儘管具有潛力,但通過文本將逼真的動作添加到這些個性化圖像中在保留獨特風格、高保真細節和實現文本控制的過程中面臨著重大挑戰。在本文中,我們提出了PIA,一個個性化圖像動畫生成器,在與條件圖像對齊、實現文本控制動作以及與各種個性化T2I模型兼容而無需特定調整方面表現出色。為了實現這些目標,PIA基於一個基本的T2I模型,配備了經過良好訓練的時間對齊層,從而實現了任何個性化T2I模型無縫轉換為圖像動畫模型。PIA的一個關鍵組件是引入條件模塊,該模塊利用條件幀和幀間親和力作為輸入,以在潛在空間中引導外觀信息轉移,以親和性提示指導個別幀合成。這種設計有助於減輕與外觀相關的圖像對齊挑戰,並且更加專注於與動作相關的引導對齊。
語義圖像合成,即從性提供語義標籤地圖生成圖像,是一項重要的有條件圖像生成任務,因為它允許控制生成圖像的內容和空間佈局。儘管擴散模型推動了生成圖像建模的最新技術,但其推理過程的迭代性質使其在計算上要求很高。其他方法如 GANs 更有效率,因為它們只需要進行一次前向傳遞來進行生成,但在大型和多樣化數據集上,圖像質量往往會下降。在這項工作中,我們提出了一種新類型的 GAN 判別器,用於語義圖像合成,通過利用為圖像分類等任務預先訓練的特徵骨幹網絡生成高度逼真的圖像。我們還引入了一種新的生成器架構,具有更好的上下文建模,並使用交叉注意力將噪音注入潛在變量,從而生成更多樣化的圖像。我們的模型,被我們稱為 DP-SIMS,在 ADE-20K、COCO-Stuff 和 Cityscapes 數據集上以圖像質量和與輸入標籤地圖的一致性方面取得了最先進的結果,超越了最近的擴散模型,同時在推理過程中需要少兩個數量級的計算。
影片視角合成能從任意視角和時間創建視覺上吸引人的畫面,提供身臨其境的觀賞體驗。神經輻射場,尤其是最初為靜態場景開發的 NeRF,已促使各種影片視角合成方法的誕生。然而,影片視角合成的挑戰來自運動模糊,這是由於物體或攝影機在曝光期間移動而導致的,這會妨礙對銳利時空視角的精確合成。為此,我們提出了一種針對模糊單眼影片的新型動態去模糊 NeRF 框架,稱為 DyBluRF,包括交錯射線細化(IRR)階段和基於運動分解的去模糊(MDD)階段。我們的 DyBluRF 是首個針對模糊單眼影片進行新視角合成的方法。IRR 階段聯合重建動態 3D 場景並改進不準確的攝影機姿勢信息,以對抗從給定模糊幀中提取的不精確姿勢信息。MDD 階段是一種新型的模糊單眼影片幀的增量潛在銳利射線預測(ILSP)方法,通過將潛在銳利射線分解為全局攝影機運動和局部物體運動分量。廣泛的實驗結果表明,我們的 DyBluRF 在質量和量化上優於最近的最先進方法。我們的項目頁面包括源代碼和預訓練模型,可在 https://kaist-viclab.github.io/dyblurf-site/ 公開獲取。