每日精選AI研究論文及翻譯
儘管近年來從單一圖像重建著衣人體的研究取得進展,如何精準還原具有高階細節的「未觀測區域」仍是缺乏關注的未解難題。現有方法常生成過度平滑的背部表面與模糊紋理。但該如何從單張圖像有效捕捉足以重建未觀測區域(如背部視角)的個體視覺屬性?受基礎模型強大能力啟發,TeCH通過以下方式重建3D人體:1)利用服飾解析模型與視覺問答(VQA)自動生成描述性文本提示(如服裝款式、色彩、髮型);2)採用經個人化微調的文本到圖像擴散模型(T2I)來學習「難以言喻」的外觀特徵。為實現高性價比的高解析度3D著衣人體建模,我們提出基於DMTet的混合3D表徵,包含顯式身體形狀網格與隱式距離場。在描述性提示詞與個人化T2I擴散模型的引導下,3D人體的幾何結構與紋理通過基於原始觀測數據的多視角分數蒸餾取樣(SDS)及重建損失進行優化。TeCH能生成具有一致性精細紋理與全身細節幾何的高擬真3D著衣人體。定量與定性實驗表明,TeCH在重建精度與渲染品質上均超越現有頂尖方法。程式碼將於 https://huangyangyi.github.io/tech 公開供研究使用。
個性化文本生成是近年來備受關注的新興研究領域。該方向的多數研究聚焦於特定領域,通過設計專用特徵或模型實現個性化生成。本文提出一種基於大型語言模型的通用個性化文本生成方法。受寫作教學實踐啟發,我們開發了多階段多任務框架來訓練大型語言模型進行個性化生成。在寫作教學中,基於素材的寫作任務常被分解為多個步驟:查找、評估、總結、綜合及整合信息。類比地,我們的個性化文本生成方法包含檢索、排序、摘要、合成與生成五個階段。此外,我們引入多任務學習機制以進一步提升模型生成能力,這源於教育領域中觀察到的閱讀能力與寫作水平常具相關性的現象。我們在三個涵蓋不同代表性領域的公開數據集上進行評估,結果表明該方法相較多種基準模型均有顯著提升。
隨著擴散模型的興起,文字轉視訊生成技術近期受到愈發廣泛的關注。然而該領域存在一個重要瓶頸:生成視訊常出現閃爍現象與偽影問題。本研究提出雙流擴散網絡(DSDN),通過增強內容變化的連貫性來提升視訊生成品質。具體而言,所設計的視訊內容與運動雙擴散流不僅能在各自獨立空間中分別生成個性化視訊內容及動態變化,更透過我們設計的跨模組交互轉換器,實現內容域與運動域的精準對齊,從而有效提升生成視訊的流暢度。此外,我們還引入運動分解器與組合器來優化視訊運動操作。定性與定量實驗表明,本方法能生成動態連貫且閃爍顯著減少的驚艷視訊。
近年來,可控影片生成技術備受關注,但現有研究仍存在兩大侷限性:首先,多數成果僅專注於文本、圖像或軌跡控制單一維度,導致無法實現影片的細粒度控制;其次,軌跡控制研究尚處早期階段,現有實驗多基於Human3.6M等簡單數據集,這限制了模型處理開放域圖像與複雜曲線軌跡的能力。本文提出DragNUWA——一個基於擴散模型的開放域影片生成框架。針對控制粒度不足的問題,我們首次融合文本、圖像與軌跡信息,從語義、空間和時間三重維度實現影片內容的細粒度控制。為突破開放域軌跡控制的侷限性,我們提出三階段軌跡建模方案:通過軌跡採樣器實現任意軌跡的開放域控制,採用多尺度融合機制適應不同粒度軌跡,並設計自適應訓練策略確保軌跡跟蹤的影片連貫性。實驗證明DragNUWA在影片細粒度控制方面具有顯著優勢。項目主頁鏈接:https://www.microsoft.com/en-us/research/project/dragnuwa/
自監督與語言監督影像模型蘊含豐富的世界知識,這對泛化能力至關重要。然而許多機器人任務需要對三維幾何有細緻理解,而這正是二維影像特徵通常欠缺的。本研究透過運用蒸餾特徵場,將精確的三維幾何與二維基礎模型的豐富語義相結合,從而為機器人操作彌合二維到三維的鴻溝。我們提出一種適用於六自由度抓取與放置的小樣本學習方法,該方法利用這些強大的空間與語義先驗知識,實現對未見過物體的實境泛化能力。透過從視覺語言模型CLIP蒸餾特徵,我們提出一種以自由文本自然語言指定新物體進行操作的方法,並展示其對未見過表達方式與新物體類別的泛化能力。
現有的方法用於對一般非剛性變形物體進行4D重建,著重於新視角合成,忽略對應關係。然而,時間一致性能夠實現諸如3D編輯、運動分析或虛擬資產創建等高級下游任務。我們提出SceNeRFlow來以一致的時間方式重建一般非剛性場景。我們的動態NeRF方法使用多視角RGB視頻和靜態攝像機拍攝的背景圖像作為輸入,然後以在線方式重建幾何和外觀的預估標準模型的變形。由於這個標準模型是時間不變的,我們即使對於長期、長距離運動也能獲得對應關係。我們使用神經場景表示來參數化我們方法的組件。與先前的動態NeRF方法一樣,我們使用反向變形模型。我們發現這個模型的非平凡適應對處理較大運動是必要的:我們將變形分解為強正則化的粗糙組件和弱正則化的細緻組件,其中粗糙組件還將變形場擴展到物體周圍的空間,從而實現隨時間的跟踪。我們實驗性地展示,與僅處理小運動的先前工作不同,我們的方法實現了對工作室規模運動的重建。