每日精選AI研究論文及翻譯
我們提出時間向量,這是一個簡單的工具,用於將語言模型定製到新的時間段。時間向量是通過在單個時間(例如一年或一個月)的數據上對語言模型進行微調來創建的,然後減去原始預訓練模型的權重。這個向量在權重空間中指定了一個方向,正如我們的實驗所顯示的,可以提高該時間段文本的性能。針對相鄰時間段專門化的時間向量似乎在流形中更接近。利用這種結構,我們在時間向量之間插值,誘導出在介於和未來時間段上表現更好的新模型,而無需進行任何額外的訓練。我們展示了我們的研究結果在不同任務、領域、模型大小和時間尺度上的一致性。我們的結果表明,時間被編碼在微調模型的權重空間中。
最近在基於文本引導的圖像修補方面取得了顯著進展,這是基於文本到圖像擴散模型取得了前所未有的成功,產生了極為逼真和視覺上可信的結果。然而,目前的文本到圖像修補模型仍有顯著的改進潛力,特別是在更好地對齊修補區域與用戶提示以及進行高分辨率修補方面。因此,在本文中,我們介紹了HD-Painter,這是一種完全無需訓練的方法,可以準確地遵循提示並且能夠一致地擴展到高分辨率圖像修補。為此,我們設計了Prompt-Aware Introverted Attention(PAIntA)層,通過提示信息增強自注意力分數,從而產生更好的文本對齊生成。為了進一步提高提示的一致性,我們引入了Reweighting Attention Score Guidance(RASG)機制,無縫地將一種事後抽樣策略整合到DDIM的一般形式中,以防止分布外潛在變化。此外,HD-Painter通過引入一種專門為修補定制的超分辨率技術,使其能夠擴展到更大的比例,實現對高達2K分辨率的圖像中缺失區域的完成。我們的實驗表明,HD-Painter在質量和量化上均優於現有的最先進方法,實現了61.4%對51.9%的令人印象深刻的生成準確度改進。我們將在以下網址公開提供代碼:https://github.com/Picsart-AI-Research/HD-Painter
最近在文本轉3D任務中的新進展利用微調的文本到圖像擴散模型生成多視圖圖像,然後進行 NeRF 重建。然而,現有的監督式微調(SFT)擴散模型仍然存在多視圖不一致性和由此產生的 NeRF 異常。雖然使用 SFT 進行更長時間的訓練可以改善一致性,但也會導致分佈轉移,降低多樣性和逼真細節。我們認為多視圖擴散模型的 SFT 類似於 LLM 對齊流程中的指導微調階段,可以從 RL 微調(RLFT)方法中受益。基本上,RLFT 方法通過使用其自身的輸出來優化模型,超越其 SFT 數據分佈,有效地緩解分佈轉移。為此,我們引入 Carve3D,一種與多視圖重建一致性(MRC)度量相結合的 RLFT 方法,以改善多視圖擴散模型的一致性。為了計算一組多視圖圖像的 MRC,我們將它們與相應的在相同視角重建的 NeRF 渲染進行比較。我們通過在受控不一致性水平下進行的大量實驗來驗證 MRC 的穩健性。我們增強了基本的 RLFT 算法以穩定訓練過程,減少分佈轉移並確定擴展定律。通過定性和定量實驗以及用戶研究,我們展示了 Carve3D 改善的多視圖一致性,由此帶來的優越 NeRF 重建質量,以及與更長的 SFT 相比的最小分佈轉移。項目網頁:https://desaixie.github.io/carve-3d。
我們介紹了ShowRoom3D,一種從文字生成高質量3D室內場景的三階段方法。先前使用2D擴散先驗來優化神經輻射場以生成室內場景的方法顯示出不滿意的質量。這主要歸因於2D先驗缺乏3D意識和訓練方法中的限制。在本文中,我們利用3D擴散先驗MVDiffusion來優化3D室內場景。我們的貢獻有兩個方面。首先,我們提出了一個漸進式視角選擇過程來優化NeRF。這涉及將訓練過程分為三個階段,逐漸擴大相機採樣範圍。其次,我們在第二階段提出了姿勢轉換方法。這將確保MVDiffusion提供準確的視角指導。因此,ShowRoom3D使得生成的房間具有改善的結構完整性,從任何視角都有增強的清晰度,減少內容重複,並在不同視角之間具有更高的一致性。大量實驗表明,我們的方法在用戶研究方面明顯優於最先進的方法。
目前在人類頭部建模方面的進展使得可以通過神經表示生成看起來合理的3D頭部模型。然而,構建完整且高保真度的頭部模型,並實現明確控制的動畫仍然是一個問題。此外,基於部分觀察(例如從深度傳感器獲得)完成頭部幾何結構,同時保留細節,對於現有方法通常是有問題的。我們引入了一種生成模型,用於在一個包含關節的3DMM之上生成詳細的3D頭部網格,從而實現明確的動畫和高細節保留。我們的方法經過兩個階段的訓練。首先,我們將一個參數化頭部模型與最近引入的NPHM數據集中準確的3D頭部掃描的每個網格進行配准,並估計出的位移嵌入到手工製作的UV佈局中。其次,我們訓練一個StyleGAN模型,以便對位移的UV映射進行泛化。參數化模型的分解和高質量的頂點位移使我們能夠對模型進行動畫化並進行語義修改。我們展示了無條件生成的結果以及與完整或部分觀察的配合。項目頁面可在https://seva100.github.io/headcraft找到。