HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

10 papers found

AppAgent：多模式代理人作為智慧型手機使用者
AppAgent: Multimodal Agents as Smartphone Users

Dec 21

ByChi Zhang, Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu

近年來大型語言模型（LLMs）的最新進展已經促成了能夠執行複雜任務的智能代理的誕生。本文介紹了一種基於新穎LLM的多模式代理框架，旨在操作智能手機應用程式。我們的框架使代理能夠通過簡化的操作空間來操作智能手機應用程式，模擬人類的互動方式，如點擊和滑動。這種新穎方法避免了對系統後端訪問的需求，從而擴大了其在各種應用程式中的應用範圍。我們代理功能的核心是其創新的學習方法。代理通過自主探索或觀察人類示範來學習如何導航和使用新應用程式。這個過程產生了一個知識庫，代理可以參考這個知識庫來執行跨不同應用程式的複雜任務。為了證明我們代理的實用性，我們在10個不同應用程式中進行了超過50個任務的廣泛測試，包括社交媒體、電子郵件、地圖、購物和複雜的圖像編輯工具。結果證實了我們代理在處理多樣高級任務方面的能力。

Paint3D：使用無燈光紋理擴散模型繪製任何3D物件
Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models

Dec 21

ByXianfang Zeng, Xin Chen, Zhongqi Qi, Wen Liu, Zibo Zhao, Zhibin Wang, BIN FU, Yong Liu, Gang Yu

本文介紹了Paint3D，一個新穎的從粗到細的生成框架，能夠根據文本或圖像輸入，為未紋理化的3D網格生成高分辨率、無照明且多樣化的2K UV紋理貼圖。所解決的關鍵挑戰是生成高質量的紋理，而不包含嵌入的照明信息，這使得紋理可以在現代圖形管線中重新照明或重新編輯。為了實現這一目標，我們的方法首先利用預先訓練的深度感知2D擴散模型生成視角條件圖像，並進行多視角紋理融合，生成初始的粗糙紋理貼圖。然而，由於2D模型無法完全表示3D形狀並禁用照明效果，粗糙紋理貼圖呈現不完整區域和照明異常。為了解決這個問題，我們訓練了專門用於形狀感知精細化不完整區域和去除照明異常的獨立UV修補和UVHD擴散模型。通過這種從粗到細的過程，Paint3D可以生成高質量的2K UV紋理，保持語義一致性，同時無需照明，顯著推動了紋理化3D物體的最新技術。

PIA：透過即插即用模組在文本到圖像模型中打造個性化圖像動畫製作者
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

Dec 21

ByYiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen

最近個性化文本到圖像（T2I）模型的進步已經改變了內容創作，使非專家能夠生成具有獨特風格的令人驚嘆的圖像。儘管具有潛力，但通過文本將逼真的動作添加到這些個性化圖像中在保留獨特風格、高保真細節和實現文本控制的過程中面臨著重大挑戰。在本文中，我們提出了PIA，一個個性化圖像動畫生成器，在與條件圖像對齊、實現文本控制動作以及與各種個性化T2I模型兼容而無需特定調整方面表現出色。為了實現這些目標，PIA基於一個基本的T2I模型，配備了經過良好訓練的時間對齊層，從而實現了任何個性化T2I模型無縫轉換為圖像動畫模型。PIA的一個關鍵組件是引入條件模塊，該模塊利用條件幀和幀間親和力作為輸入，以在潛在空間中引導外觀信息轉移，以親和性提示指導個別幀合成。這種設計有助於減輕與外觀相關的圖像對齊挑戰，並且更加專注於與動作相關的引導對齊。

時間被編碼在微調語言模型的權重中。
Time is Encoded in the Weights of Finetuned Language Models

Dec 20

ByKai Nylund, Suchin Gururangan, Noah A. Smith

我們提出時間向量，這是一個簡單的工具，用於將語言模型定製到新的時間段。時間向量是通過在單個時間（例如一年或一個月）的數據上對語言模型進行微調來創建的，然後減去原始預訓練模型的權重。這個向量在權重空間中指定了一個方向，正如我們的實驗所顯示的，可以提高該時間段文本的性能。針對相鄰時間段專門化的時間向量似乎在流形中更接近。利用這種結構，我們在時間向量之間插值，誘導出在介於和未來時間段上表現更好的新模型，而無需進行任何額外的訓練。我們展示了我們的研究結果在不同任務、領域、模型大小和時間尺度上的一致性。我們的結果表明，時間被編碼在微調模型的權重空間中。

HD-Painter：高分辨率且快速可信的文本引導圖像修補與擴散模型
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models

Dec 21

ByHayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi

最近在基於文本引導的圖像修補方面取得了顯著進展，這是基於文本到圖像擴散模型取得了前所未有的成功，產生了極為逼真和視覺上可信的結果。然而，目前的文本到圖像修補模型仍有顯著的改進潛力，特別是在更好地對齊修補區域與用戶提示以及進行高分辨率修補方面。因此，在本文中，我們介紹了HD-Painter，這是一種完全無需訓練的方法，可以準確地遵循提示並且能夠一致地擴展到高分辨率圖像修補。為此，我們設計了Prompt-Aware Introverted Attention（PAIntA）層，通過提示信息增強自注意力分數，從而產生更好的文本對齊生成。為了進一步提高提示的一致性，我們引入了Reweighting Attention Score Guidance（RASG）機制，無縫地將一種事後抽樣策略整合到DDIM的一般形式中，以防止分布外潛在變化。此外，HD-Painter通過引入一種專門為修補定制的超分辨率技術，使其能夠擴展到更大的比例，實現對高達2K分辨率的圖像中缺失區域的完成。我們的實驗表明，HD-Painter在質量和量化上均優於現有的最先進方法，實現了61.4%對51.9%的令人印象深刻的生成準確度改進。我們將在以下網址公開提供代碼：https://github.com/Picsart-AI-Research/HD-Painter

Carve3D：透過強化學習微調改進擴散模型的多視角重建一致性
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

Dec 21

ByDesai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman

最近在文本轉3D任務中的新進展利用微調的文本到圖像擴散模型生成多視圖圖像，然後進行 NeRF 重建。然而，現有的監督式微調（SFT）擴散模型仍然存在多視圖不一致性和由此產生的 NeRF 異常。雖然使用 SFT 進行更長時間的訓練可以改善一致性，但也會導致分佈轉移，降低多樣性和逼真細節。我們認為多視圖擴散模型的 SFT 類似於 LLM 對齊流程中的指導微調階段，可以從 RL 微調（RLFT）方法中受益。基本上，RLFT 方法通過使用其自身的輸出來優化模型，超越其 SFT 數據分佈，有效地緩解分佈轉移。為此，我們引入 Carve3D，一種與多視圖重建一致性（MRC）度量相結合的 RLFT 方法，以改善多視圖擴散模型的一致性。為了計算一組多視圖圖像的 MRC，我們將它們與相應的在相同視角重建的 NeRF 渲染進行比較。我們通過在受控不一致性水平下進行的大量實驗來驗證 MRC 的穩健性。我們增強了基本的 RLFT 算法以穩定訓練過程，減少分佈轉移並確定擴展定律。通過定性和定量實驗以及用戶研究，我們展示了 Carve3D 改善的多視圖一致性，由此帶來的優越 NeRF 重建質量，以及與更長的 SFT 相比的最小分佈轉移。項目網頁：https://desaixie.github.io/carve-3d。

ShowRoom3D：使用3D先驗生成高質量3D房間的文本
ShowRoom3D: Text to High-Quality 3D Room Generation Using 3D Priors

Dec 20

ByWeijia Mao, Yan-Pei Cao, Jia-Wei Liu, Zhongcong Xu, Mike Zheng Shou

我們介紹了ShowRoom3D，一種從文字生成高質量3D室內場景的三階段方法。先前使用2D擴散先驗來優化神經輻射場以生成室內場景的方法顯示出不滿意的質量。這主要歸因於2D先驗缺乏3D意識和訓練方法中的限制。在本文中，我們利用3D擴散先驗MVDiffusion來優化3D室內場景。我們的貢獻有兩個方面。首先，我們提出了一個漸進式視角選擇過程來優化NeRF。這涉及將訓練過程分為三個階段，逐漸擴大相機採樣範圍。其次，我們在第二階段提出了姿勢轉換方法。這將確保MVDiffusion提供準確的視角指導。因此，ShowRoom3D使得生成的房間具有改善的結構完整性，從任何視角都有增強的清晰度，減少內容重複，並在不同視角之間具有更高的一致性。大量實驗表明，我們的方法在用戶研究方面明顯優於最先進的方法。

解鎖預訓練圖像主幹以進行語義圖像合成
Unlocking Pre-trained Image Backbones for Semantic Image Synthesis

Dec 20

ByTariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari

語義圖像合成，即從性提供語義標籤地圖生成圖像，是一項重要的有條件圖像生成任務，因為它允許控制生成圖像的內容和空間佈局。儘管擴散模型推動了生成圖像建模的最新技術，但其推理過程的迭代性質使其在計算上要求很高。其他方法如 GANs 更有效率，因為它們只需要進行一次前向傳遞來進行生成，但在大型和多樣化數據集上，圖像質量往往會下降。在這項工作中，我們提出了一種新類型的 GAN 判別器，用於語義圖像合成，通過利用為圖像分類等任務預先訓練的特徵骨幹網絡生成高度逼真的圖像。我們還引入了一種新的生成器架構，具有更好的上下文建模，並使用交叉注意力將噪音注入潛在變量，從而生成更多樣化的圖像。我們的模型，被我們稱為 DP-SIMS，在 ADE-20K、COCO-Stuff 和 Cityscapes 數據集上以圖像質量和與輸入標籤地圖的一致性方面取得了最先進的結果，超越了最近的擴散模型，同時在推理過程中需要少兩個數量級的計算。

HeadCraft：為動畫3DMMs建模高細節形狀變化
HeadCraft: Modeling High-Detail Shape Variations for Animated 3DMMs

Dec 21

ByArtem Sevastopolsky, Philip-William Grassal, Simon Giebenhain, ShahRukh Athar, Luisa Verdoliva, Matthias Niessner

目前在人類頭部建模方面的進展使得可以通過神經表示生成看起來合理的3D頭部模型。然而，構建完整且高保真度的頭部模型，並實現明確控制的動畫仍然是一個問題。此外，基於部分觀察（例如從深度傳感器獲得）完成頭部幾何結構，同時保留細節，對於現有方法通常是有問題的。我們引入了一種生成模型，用於在一個包含關節的3DMM之上生成詳細的3D頭部網格，從而實現明確的動畫和高細節保留。我們的方法經過兩個階段的訓練。首先，我們將一個參數化頭部模型與最近引入的NPHM數據集中準確的3D頭部掃描的每個網格進行配准，並估計出的位移嵌入到手工製作的UV佈局中。其次，我們訓練一個StyleGAN模型，以便對位移的UV映射進行泛化。參數化模型的分解和高質量的頂點位移使我們能夠對模型進行動畫化並進行語義修改。我們展示了無條件生成的結果以及與完整或部分觀察的配合。項目頁面可在https://seva100.github.io/headcraft找到。

DyBluRF：模糊單眼視頻的動態去模糊神經輻射場
DyBluRF: Dynamic Deblurring Neural Radiance Fields for Blurry Monocular Video

Dec 21

ByMinh-Quan Viet Bui, Jongmin Park, Jihyong Oh, Munchurl Kim

影片視角合成能從任意視角和時間創建視覺上吸引人的畫面，提供身臨其境的觀賞體驗。神經輻射場，尤其是最初為靜態場景開發的 NeRF，已促使各種影片視角合成方法的誕生。然而，影片視角合成的挑戰來自運動模糊，這是由於物體或攝影機在曝光期間移動而導致的，這會妨礙對銳利時空視角的精確合成。為此，我們提出了一種針對模糊單眼影片的新型動態去模糊 NeRF 框架，稱為 DyBluRF，包括交錯射線細化（IRR）階段和基於運動分解的去模糊（MDD）階段。我們的 DyBluRF 是首個針對模糊單眼影片進行新視角合成的方法。IRR 階段聯合重建動態 3D 場景並改進不準確的攝影機姿勢信息，以對抗從給定模糊幀中提取的不精確姿勢信息。MDD 階段是一種新型的模糊單眼影片幀的增量潛在銳利射線預測（ILSP）方法，通過將潛在銳利射線分解為全局攝影機運動和局部物體運動分量。廣泛的實驗結果表明，我們的 DyBluRF 在質量和量化上優於最近的最先進方法。我們的項目頁面包括源代碼和預訓練模型，可在 https://kaist-viclab.github.io/dyblurf-site/ 公開獲取。