每日精選AI研究論文及翻譯
儘管最近在從單張圖像重建穿著衣物的研究取得了進展,但精確地還原帶有高級細節的「看不見的區域」仍然是一個缺乏關注且尚未解決的挑戰。現有方法通常會生成過於平滑的背面表面,帶有模糊的紋理。然而,如何有效地從單張圖像中捕捉個人的所有視覺特徵,以便重建看不見的區域(例如背面視圖)呢?受到基礎模型的威力的啟發,TeCH通過以下方式重建3D人體:1)利用描述性文本提示(例如服裝、顏色、髮型),這些提示是通過服裝解析模型和視覺問答(VQA)自動生成的,2)一個個性化微調的文本到圖像擴散模型(T2I),該模型學習了「難以描述」的外觀。為了以負擔得起的成本呈現高分辨率的3D穿著衣物的人體,我們提出了基於DMTet的混合3D表示,其中包括明確的身體形狀網格和隱式距離場。在描述性提示+個性化T2I擴散模型的指導下,通過多視角分數蒸餾採樣(SDS)和基於原始觀察的重建損失,優化了3D人體的幾何和紋理。TeCH生成了具有一致且精細紋理以及詳細全身幾何的高保真度3D穿著衣物的人體。定量和定性實驗表明,TeCH在重建準確性和渲染質量方面優於最先進的方法。代碼將公開提供供研究目的使用,網址為https://huangyangyi.github.io/tech
個性化文本生成是一個近年來引起廣泛關注的新興研究領域。這個方向上的大多數研究專注於通過設計定製特徵或模型來專注於特定領域。在這項工作中,我們提出了一種使用大型語言模型(LLMs)進行個性化文本生成的通用方法。受到寫作教育實踐的啟發,我們開發了一個多階段和多任務的框架,用於教導LLMs進行個性化生成。在寫作指導中,從來源進行寫作的任務通常被分解為涉及尋找、評估、摘要、綜合和整合信息的多個步驟。類似地,我們的個性化文本生成方法包括多個階段:檢索、排名、摘要、綜合和生成。此外,我們引入了一個多任務設置,有助於模型進一步提高其生成能力,這受到教育領域觀察到的一個現象的啟發,即學生的閱讀能力和寫作能力通常是相關的。我們在三個公開數據集上評估了我們的方法,每個數據集涵蓋不同且具代表性的領域。我們的結果顯示相對於各種基準線,顯著改善。
隨著新興的擴散模型,最近,文字轉視頻生成引起了越來越多的關注。但其中一個重要的瓶頸是,生成的視頻往往會出現一些閃爍和瑕疵。在這項工作中,我們提出了一種雙流擴散網絡(DSDN),以改善生成視頻中內容變化的一致性。特別是,設計的兩個擴散流,視頻內容和運動分支,不僅可以在它們各自的私有空間中運行,以生成個性化的視頻變化和內容,而且還可以通過利用我們設計的交叉轉換器交互模塊,在內容和運動領域之間實現良好對齊,這將有助於生成視頻的平滑度。此外,我們還引入了運動分解器和合併器,以促進對視頻運動的操作。定性和定量實驗表明,我們的方法能夠生成具有較少閃爍的令人驚嘆的連續視頻。
近年來,可控式影片生成受到相當大的關注。然而,仍存在兩個主要限制:首先,大多數現有作品著重於文字、圖像或軌跡控制,導致無法實現影片的精細控制。其次,軌跡控制研究仍處於早期階段,大多數實驗是在像是Human3.6M這樣的簡單數據集上進行的。這一限制限制了模型處理開放域圖像並有效處理複雜曲線軌跡的能力。本文提出了DragNUWA,一種基於擴散的開放域影片生成模型。為了應對現有作品中控制粒度不足的問題,我們同時引入了文字、圖像和軌跡信息,從語義、空間和時間角度提供對影片內容的精細控制。為了解決當前研究中開放域軌跡控制有限的問題,我們提出了三個方面的軌跡建模:軌跡取樣器(TS)實現任意軌跡的開放域控制,多尺度融合(MF)控制不同粒度的軌跡,以及自適應訓練(AT)策略生成遵循軌跡的一致影片。我們的實驗驗證了DragNUWA的有效性,展示了其在影片生成中精細控制方面的卓越性能。首頁鏈接為https://www.microsoft.com/en-us/research/project/dragnuwa/
自我監督和語言監督的影像模型包含對於泛化至關重要的世界豐富知識。然而,許多機器人任務需要對3D幾何有詳細的理解,而這在2D影像特徵中通常缺乏。本研究通過利用提煉的特徵場來將準確的3D幾何與2D基礎模型的豐富語義結合,以彌合機器人操作中的2D至3D差距。我們提出了一種用於6自由度抓取和放置的少樣本學習方法,利用這些強大的空間和語義先驗,實現對未見物體的野外泛化。通過從視覺語言模型CLIP中提煉的特徵,我們提出了一種通過自由文本自然語言指定新物體進行操作的方法,並展示了其對未見表達和新類別物體的泛化能力。
現有的方法用於對一般非剛性變形物體進行4D重建,著重於新視角合成,忽略對應關係。然而,時間一致性能夠實現諸如3D編輯、運動分析或虛擬資產創建等高級下游任務。我們提出SceNeRFlow來以一致的時間方式重建一般非剛性場景。我們的動態NeRF方法使用多視角RGB視頻和靜態攝像機拍攝的背景圖像作為輸入,然後以在線方式重建幾何和外觀的預估標準模型的變形。由於這個標準模型是時間不變的,我們即使對於長期、長距離運動也能獲得對應關係。我們使用神經場景表示來參數化我們方法的組件。與先前的動態NeRF方法一樣,我們使用反向變形模型。我們發現這個模型的非平凡適應對處理較大運動是必要的:我們將變形分解為強正則化的粗糙組件和弱正則化的細緻組件,其中粗糙組件還將變形場擴展到物體周圍的空間,從而實現隨時間的跟踪。我們實驗性地展示,與僅處理小運動的先前工作不同,我們的方法實現了對工作室規模運動的重建。