每日精選AI研究論文及翻譯
大規模文本到圖像擴散模型的生成先驗使得在不同視覺模態上能夠進行各種新的生成和編輯應用。然而,當將這些先驗適應到複雜的視覺模態,通常以多個圖像(例如,視頻)表示,實現一組圖像的一致性是具有挑戰性的。在本文中,我們通過一種新穎的方法,即協作分數蒸餾(CSD),來應對這一挑戰。CSD基於Stein變分梯度下降(SVGD)。具體來說,我們建議將多個樣本視為SVGD更新中的“粒子”,並結合它們的分數函數以同步蒸餾一組圖像的生成先驗。因此,CSD促進了在2D圖像之間無縫整合信息,從而實現跨多個樣本的一致視覺合成。我們展示了CSD在各種任務中的有效性,包括全景圖像、視頻和3D場景的視覺編輯。我們的結果突顯了CSD作為一種多才多藝的方法,用於增強樣本間一致性,從而擴大文本到圖像擴散模型的應用範圍。
應用機器學習於微分方程式研究為數值求解器提供了高效的替代方案,可能對科學和工程領域產生廣泛影響。儘管目前的演算法通常需要針對特定情境量身定制的模擬訓練數據,但我們可能希望從異質來源或來自雜亂或不完整的實際動態系統觀測中學習有用信息。在這項研究中,我們通過實施聯合嵌入方法進行自監督學習(SSL),從異質數據中學習偏微分方程式的通用表示,這是一種在計算機視覺領域取得顯著成功的非監督表示學習框架。我們的表示優於基準方法在不變任務上的表現,例如回歸偏微分方程式的係數,同時也提高了神經求解器的時間步進效能。我們希望我們提出的方法論將對偏微分方程式的通用基礎模型的最終發展證明有用。
我們提出了一種新穎的方法來生成靜態和關節式3D資產,其核心是一個3D自編碼器。這個3D自編碼器框架將從目標數據集中學習的屬性嵌入潛在空間,然後可以將其解碼為體積表示,以呈現視圖一致的外觀和幾何形狀。然後,我們識別適當的中間體積潛在空間,並引入強健的標準化和反標準化操作,以從二維圖像或單眼視頻中學習剛性或關節式物體的3D擴散。我們的方法足夠靈活,可以使用現有的相機監督或根本不使用相機信息,而是在訓練過程中高效地學習。我們的評估表明,我們的生成結果在各種基準數據集和指標上均優於最先進的替代方案,包括合成物體的多視圖圖像數據集、移動人物的真實野外視頻以及大規模的靜態物體真實視頻數據集。
在一組經校準的場景影像中,我們提出了一種方法,通過使用三維基本元素,生成一個簡單、緊湊且可操作的三維世界表示。儘管許多方法專注於恢復高保真度的三維場景,我們專注於將場景解析為由少量紋理基本元素組成的中層三維表示。這些表示易於解釋、易於操作並適用於基於物理的模擬。此外,與現有依賴三維輸入數據的基本元素分解方法不同,我們的方法通過可微渲染直接在影像上運作。具體來說,我們將基本元素建模為紋理超四面體網格,並通過影像渲染損失從頭開始優化它們的參數。我們強調為每個基本元素建模透明度的重要性,這對於優化至關重要,同時也能處理不同數量的基本元素。我們展示了生成的紋理基本元素忠實重建了輸入影像並準確建模了可見的三維點,同時提供了看不見物體區域的全模形狀完成。我們將我們的方法與來自DTU的各種場景的最新技術進行了比較,並展示了它在BlendedMVS和Nerfstudio的現實拍攝中的穩健性。我們還展示了我們的結果如何用於輕鬆編輯場景或執行物理模擬。代碼和視頻結果可在https://www.tmonnier.com/DBW 上找到。
由於影像語言預訓練(VLP)能夠泛化到各種視覺和語言任務,因此已變得日益重要。然而,現有的自我中心VLP框架使用獨立的影像和語言編碼器,並僅在微調期間學習任務特定的跨模態信息,限制了統一系統的發展。在這項工作中,我們介紹了第二代自我中心影像語言預訓練(EgoVLPv2),這是對上一代的重大改進,通過將跨模態融合直接融入影像和語言主幹。EgoVLPv2在預訓練期間學習強大的影像文本表示,並重複使用跨模態注意模組,以靈活高效的方式支持不同的下游任務,降低微調成本。此外,我們提出的主幹融合策略比堆疊額外的融合特定層更輕量且計算效率更高。在各種VL任務上進行了大量實驗,證明了EgoVLPv2的有效性,它在所有下游任務上實現了一致的最先進性能,超越了強基線。我們的項目頁面位於https://shramanpramanick.github.io/EgoVLPv2/。
在各種應用中,從虛擬實境到社交平台,獲取高質量和多樣化的3D人體數位資產至關重要。生成式方法,如3D生成對抗網絡(GANs),正迅速取代費時的手動內容創建工具。然而,現有的3D GAN框架通常依賴場景表示,這些表示利用模板網格(速度快但質量有限)或體積(容量大但渲染緩慢),從而限制了GAN環境中的3D保真度。在這項工作中,我們引入了分層表面體積(LSVs)作為新的3D物體表示,用於表達關節式數位人體。LSVs使用多個帶有紋理的網格層來表示人體,環繞著一個傳統模板。這些層使用快速可微分的光柵化進行渲染,可以被解釋為一種體積表示,將其容量分配給模板周圍的有限厚度流形。與傳統的單層模板不同,後者難以表示頭髮或配飾等細微的非表面細節,我們的表面體積自然地捕捉到這些細節。LSVs可以被關節化,並且在GAN環境中表現出卓越的效率,其中2D生成器學習合成個別層的RGBA紋理。通過在非結構化的單視圖2D圖像數據集上進行訓練,我們的LSV-GAN生成高質量且視角一致的3D關節式數位人體,無需視角不一致的2D上採樣網絡。
先前的研究已確立測試時訓練(TTT)作為一個通用框架,可在測試時進一步改進已訓練模型。在對每個測試實例進行預測之前,模型會使用自監督任務(例如使用遮罩自編碼器進行圖像重建)對同一實例進行訓練。我們將TTT擴展到串流設置,其中多個測試實例(在我們的情況下是視頻幀)按時間順序到達。我們的擴展是在線TTT:當前模型從先前模型初始化,然後在當前幀和之前立即的一小窗口幀上進行訓練。在四個任務上,我們的在線TTT明顯優於固定模型基線,在三個現實世界的數據集上。對於實例和全景分割,相對改進分別為45%和66%。令人驚訝的是,在線TTT還優於其離線變體,後者訪問更多信息,即訓練所有幀,而不考慮時間順序的整個測試視頻。這與使用合成視頻的先前發現不同。我們將局部性概念化為在線TTT相對於離線TTT的優勢。我們通過消融和基於偏差-變異權衡的理論分析了局部性的作用。