每日精選AI研究論文及翻譯
卷積神經網絡(CNNs)和視覺Transformer(ViTs)被視為視覺表示學習的兩個最受歡迎的基礎模型。雖然CNNs在圖像分辨率方面表現出卓越的可擴展性,具有線性複雜度,ViTs在擬合能力上超越它們,儘管面臨二次複雜度的挑戰。更仔細的檢查顯示,ViTs通過整合全局感受域和動態權重實現了優越的視覺建模性能。這一觀察結果激勵我們提出一種新穎的架構,繼承了這些組成部分,同時增強了計算效率。為此,我們從最近引入的狀態空間模型中汲取靈感,提出了視覺狀態空間模型(VMamba),實現了線性複雜度,同時不會犧牲全局感受域。為了解決遇到的方向敏感問題,我們引入了交叉掃描模塊(CSM)來遍歷空間域,將任何非因果視覺圖像轉換為有序的補丁序列。廣泛的實驗結果證實,VMamba不僅在各種視覺感知任務中展現出有前途的能力,而且隨著圖像分辨率的提高,也比已建立的基準顯示出更為明顯的優勢。源代碼可在https://github.com/MzeroMiko/VMamba找到。
擴散模型為影像生成領域開辟了新的途徑,導致高品質模型在開源平台上的廣泛應用。然而,當前文本到影像系統面臨的一個主要挑戰是往往無法處理多樣的輸入,或者僅限於單一模型結果。當前統一的嘗試通常可分為兩個正交方面:i) 解析輸入階段的多樣提示;ii) 啟動專家模型以輸出。為了兼顧兩者的優勢,我們提出了DiffusionGPT,利用大型語言模型(LLM)提供統一的生成系統,能夠無縫地適應各種類型的提示並整合領域專家模型。DiffusionGPT根據先前知識為各種生成模型構建特定領域的樹狀結構。當提供輸入時,LLM解析提示並利用思維樹來指導選擇適當的模型,從而放寬輸入限制,確保在不同領域表現卓越。此外,我們引入了優勢數據庫,其中思維樹通過人類反饋得以豐富,將模型選擇過程與人類偏好保持一致。通過大量實驗和比較,我們展示了DiffusionGPT的有效性,展示了其在不同領域推動影像合成極限的潛力。
我們介紹了SPARse Fine-grained Contrastive Alignment(SPARC),這是一種簡單的方法,用於從圖像-文本對中預訓練更細粒度的多模態表示。鑒於多個圖像區塊通常對應單詞,我們建議為標題中的每個標記學習一組圖像區塊的分組。為了實現這一點,我們使用圖像區塊和語言標記之間的稀疏相似度度量,並為每個標記計算一個語言分組的視覺嵌入,作為區塊的加權平均值。然後,通過一個細粒度的序列損失將標記和語言分組的視覺嵌入進行對比,該損失僅取決於個別樣本,不需要其他批次樣本作為負樣本。這使得可以以一種計算成本低廉的方式學習更詳細的信息。SPARC將這種細粒度損失與全局圖像和文本嵌入之間的對比損失結合在一起,以學習同時編碼全局和局部信息的表示。我們對我們提出的方法進行了全面評估,並展示了在依賴於粗粒度信息的圖像級任務(例如分類)以及依賴於細粒度信息的區域級任務(例如檢索、物體檢測和分割)上,相對競爭方法的性能有所提升。此外,SPARC提高了模型的忠實度和基礎視覺語言模型中的標註能力。
和許多機器學習問題一樣,影像生成方法的進展取決於良好的評估指標。其中最流行的之一是Frechet Inception Distance(FID)。FID用於估計真實影像的Inception-v3特徵分佈與演算法生成影像的特徵之間的距離。我們強調FID存在重要缺陷:Inception對現代文本到影像模型生成的豐富多樣內容表現不佳、錯誤的正態性假設以及樣本複雜度不足。我們呼籲重新評估將FID作為生成影像的主要品質指標的適用性。我們實證表明,FID與人工評分者相矛盾,無法反映逐步改進的迭代文本到影像模型、無法捕捉失真程度,並在改變樣本大小時產生不一致結果。我們還提出了一個新的替代指標CMMD,基於更豐富的CLIP嵌入和與高斯RBF核的最大均值差距距離。它是一個無偏估計量,不對嵌入的概率分佈做任何假設,並且具有樣本效率。通過廣泛的實驗和分析,我們證明基於FID對文本到影像模型進行評估可能不可靠,而CMMD提供了更穩健和可靠的影像品質評估。
我們提出了SHINOBI,一個端到端的框架,用於從捕獲具有不同照明、姿勢和背景的物體圖像中重建形狀、材質和照明。基於無限制圖像集合的物體的反渲染是計算機視覺和圖形領域中一個長期存在的挑戰,需要對形狀、輻射和姿勢進行聯合優化。我們展示了基於多分辨率哈希編碼的隱式形狀表示,可以實現更快速、更穩健的形狀重建,並通過聯合相機對齊優化來超越先前的工作。此外,為了實現對照明和物體反射(即材質)的編輯,我們聯合優化BRDF和照明,以及物體的形狀。我們的方法是與類別無關的,可應用於野外物體圖像集合,以生成可重新照明的3D資產,適用於AR/VR、電影、遊戲等多種用例。專案頁面:https://shinobi.aengelhardt.com 影片:https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
本文旨在使用一種輕量且快速的基於擴散的聲碼器FreGrad生成逼真的音頻。我們的框架包括以下三個關鍵組件:(1)我們採用離散小波變換,將複雜的波形分解為子頻帶小波,有助於FreGrad在簡單而簡潔的特徵空間上運行,(2)我們設計了一種頻率感知擴張卷積,提高了頻率感知度,從而生成具有準確頻率信息的語音,以及(3)我們引入了一些技巧,提升了所提出模型的生成質量。在我們的實驗中,FreGrad相較於我們的基準模型,實現了3.7倍更快的訓練時間和2.2倍更快的推理速度,同時將模型大小減少了0.6倍(僅1.78M參數),而不會影響輸出質量。音頻樣本可在以下鏈接中找到:https://mm.kaist.ac.kr/projects/FreGrad。
定制化文本到視頻生成旨在根據文本提示和主題參考生成高質量視頻。目前針對單個主題設計的方法在應對多個主題時存在困難,這是一個更具挑戰性和實用性的情境。在這項工作中,我們旨在推廣多主題引導的文本到視頻定制化。我們提出了CustomVideo,一個新穎的框架,可以在多個主題的引導下生成保持身份的視頻。具體而言,首先,我們通過將多個主題組合在單個圖像中來促進多個主題的共同出現。此外,在基本的文本到視頻擴散模型之上,我們設計了一種簡單而有效的注意力控制策略,以在擴散模型的潛在空間中解開不同主題。此外,為了幫助模型專注於特定對象區域,我們從給定的參考圖像中分割對象並為注意力學習提供相應的對象遮罩。此外,我們收集了一個多主題文本到視頻生成數據集作為全面的基準,其中包含69個單獨的主題和57個有意義的配對。廣泛的定性、定量和用戶研究結果顯示,與先前的最先進方法相比,我們的方法具有卓越性。