每日精選AI研究論文及翻譯
基於拖曳的圖像編輯近來因其互動性和精確性而受到矚目。然而,儘管文本生成圖像模型能夠在一秒內生成樣本,由於準確反映用戶互動並保持圖像內容的挑戰,拖曳編輯仍然落後。一些現有方法依賴於計算密集型的每幅圖像優化或複雜的基於引導的方法,需要額外的輸入,如可移動區域的遮罩和文本提示,從而影響了編輯過程的互動性。我們介紹了InstantDrag,這是一個無需優化的流程,提高了互動性和速度,只需要一張圖像和一個拖曳指令作為輸入。InstantDrag由兩個精心設計的網絡組成:一個拖曳條件的光流生成器(FlowGen)和一個光流條件的擴散模型(FlowDiffusion)。InstantDrag通過將任務分解為運動生成和運動條件的圖像生成,從現實世界的視頻數據集中學習了基於拖曳的圖像編輯的運動動態。我們通過在面部視頻數據集和一般場景上的實驗展示了InstantDrag在沒有遮罩或文本提示的情況下執行快速、逼真的編輯的能力。這些結果突顯了我們方法在處理基於拖曳的圖像編輯方面的效率,使其成為互動、實時應用的一個有前途的解決方案。
將各種角色素描進行動畫化是一項引人入勝的視覺內容創作任務。對於單一角色素描,現有的動畫方法僅限於平面2D運動,因此缺乏3D效果。另一種解決方案是從角色素描中重建3D模型作為代理,然後將3D運動數據重新定位到該模型上。然而,現有的圖像到3D的方法在外觀和幾何方面對業餘角色素描效果不佳。我們觀察到角色素描中常見的輪廓線會因其視角依賴性而在紋理合成中引入顯著的歧義。此外,由單線輪廓表示的細小區域(例如棒人的細肢)由於其精細結構而難以重建。為了應對這些問題,我們提出了一個新穎的系統,名為DrawingSpinUp,以產生可信的3D動畫,賦予角色素描生命力,使其可以自由旋轉、跳躍,甚至進行嘻哈舞蹈。為了改善外觀,我們採用了一種先刪除再恢復的策略,首先刪除視角依賴的輪廓線,然後在重新定位重建的角色後再渲染它們。為了改進幾何結構,我們開發了一種基於骨架的細化變形算法,以完善由單線輪廓表示的細小結構。實驗評估和感知用戶研究表明,我們提出的方法優於現有的2D和3D動畫方法,並從單一角色素描生成高質量的3D動畫。請參考我們的項目頁面(https://lordliang.github.io/DrawingSpinUp)以獲取代碼和生成的動畫。
開放詞彙偵測(OVD)旨在偵測超出預定類別集的物件。作為將 YOLO 系列納入 OVD 的開創性模型,YOLO-World 非常適合強調速度和效率的情境。然而,其性能受到其頸部特徵融合機制的阻礙,導致二次複雜度和有限的引導感受野。為解決這些限制,我們提出了 Mamba-YOLO-World,一個採用提出的 MambaFusion Path Aggregation Network(MambaFusion-PAN)作為其頸部架構的新穎基於 YOLO 的 OVD 模型。具體而言,我們引入了一種基於狀態空間模型的特徵融合機制,包括具有線性複雜度和全局引導感受野的平行引導選擇掃描算法和串行引導選擇掃描算法。它利用多模態輸入序列和蛇行隱藏狀態來引導選擇性掃描過程。實驗表明,我們的模型在 COCO 和 LVIS 基準測試中,在零樣本和微調設置下均優於原始 YOLO-World,同時保持可比的參數和 FLOPs。此外,它以更少的參數和 FLOPs 超越現有的最先進 OVD 方法。
對於多視角資料,重新照明輻射場存在嚴重的不完全約束,因為大多數情況下是在單一照明條件下捕獲的;尤其對於包含多個物體的完整場景更加困難。我們提出了一種方法,通過利用從2D圖像擴散模型中提取的先驗信息,使用這種單一照明資料創建可重新照明的輻射場。我們首先在一個以光線方向為條件的多照明資料集上對2D擴散模型進行微調,這使我們能夠將單一照明捕獲轉換為一個逼真但可能不一致的多照明資料集,其中光線方向是直接定義的。我們使用這些擴增資料來創建由3D高斯斑點表示的可重新照明的輻射場。為了實現對低頻照明的直接控制,我們使用一個以光線方向為參數的多層感知器來表示外觀。為了強制實現多視角一致性並克服不準確性,我們優化了每個圖像的輔助特徵向量。我們展示了在單一照明下的合成和真實多視角資料上的結果,證明了我們的方法成功地利用2D擴散模型的先驗信息,實現了對完整場景進行逼真的3D重新照明。項目網站:https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
體積式影片代表了視覺媒體中的一項革命性進步,讓使用者可以自由地導航沉浸式虛擬體驗,縮小數位與現實世界之間的差距。然而,在現有工作流程中,需要大量手動干預來穩定網格序列以及生成過大的資產,這些因素阻礙了更廣泛的應用。本文提出了一種新穎的基於高斯的方法,名為DualGS,用於實時和高保真度地播放複雜人類表現,具有優異的壓縮比。DualGS 的關鍵思想是使用相應的皮膚和關節高斯來分別表示運動和外觀。這種明確的解耦可以顯著減少運動冗餘並增強時間上的一致性。我們首先初始化 DualGS,並在第一幀將皮膚高斯錨定到關節高斯。隨後,我們採用了一種逐幀人類表現建模的從粗到細的訓練策略。這包括一個用於整體運動預測的粗略對齊階段,以及用於強健追踪和高保真度渲染的精細優化。為了將體積式影片無縫整合到虛擬實境環境中,我們使用熵編碼有效壓縮運動,並使用編解碼壓縮以及持久的碼本來壓縮外觀。我們的方法實現了高達 120 倍的壓縮比,每幀僅需要約 350KB 的存儲空間。我們通過在虛擬實境頭戴設備上進行逼真的自由視角體驗,展示了我們表示法的有效性,使使用者可以沉浸式地觀看表演中的音樂家,感受表演者指尖的節奏。
在現代社會中,音訊修復變得日益重要,不僅因為先進播放設備帶來高品質聽覺體驗的需求,也因為生成音訊模型的增強能力需要高保真度音訊。通常,音訊修復被定義為從損壞的輸入預測未受損音訊的任務,通常使用 GAN 框架進行訓練,以平衡感知和失真。由於音訊退化主要集中在中高頻範圍,特別是由編解碼器引起,一個關鍵挑戰在於設計一個能夠保留低頻信息並準確重建高質量中高頻內容的生成器。受高取樣率音樂分離、語音增強和音訊編解碼模型近期進展的啟發,我們提出了 Apollo,一個專為高取樣率音訊修復而設計的生成模型。Apollo 使用明確的頻帶分割模組來建模不同頻帶之間的關係,從而實現更一致和更高質量的修復音訊。在 MUSDB18-HQ 和 MoisesDB 資料集上評估,Apollo 在各種比特率和音樂類型下一貫優於現有的 SR-GAN 模型,特別擅長處理涉及多個樂器和人聲混合的複雜情境。Apollo 顯著提高了音樂修復的質量,同時保持了計算效率。Apollo 的原始碼可在 https://github.com/JusperLee/Apollo 公開獲取。
最近生成模型的進步已經徹底改變了圖像生成和編輯,使這些任務對非專家變得更加可行。本文專注於局部圖像編輯,特別是向模糊指定區域添加新內容的任務。現有方法通常需要精確的遮罩或詳細的位置描述,這可能很繁瑣並容易出錯。我們提出了Click2Mask,一種新穎的方法,通過僅需要單個參考點(以及內容描述)來簡化局部編輯過程。在 Blended Latent Diffusion(BLD)過程中,透過基於 CLIP 的遮罩誘導語義損失,使遮罩在該點周圍動態擴展。Click2Mask克服了基於分割和依賴微調的方法的限制,提供了一種更加用戶友好和情境準確的解決方案。我們的實驗表明,Click2Mask不僅減少了用戶的努力,而且在人類判斷和自動指標方面,與SoTA方法相比,提供了競爭力或更優秀的局部圖像操作結果。關鍵貢獻包括簡化用戶輸入、能夠自由添加不受現有區段限制的對象,以及我們動態遮罩方法在其他編輯方法中的整合潛力。