每日精選AI研究論文及翻譯
隨著大型語言模型(LLMs)近來的普及,已有多項嘗試將其擴展至視覺領域。從具有視覺助理的應用,可引導我們穿越陌生環境,到僅使用高層次文本描述生成圖像的生成模型,視覺語言模型(VLM)的應用將顯著影響我們與技術的關係。然而,有許多挑戰需要應對,以提高這些模型的可靠性。語言是離散的,而視覺則存在於更高維度的空間中,其中概念並非總是容易離散化。為了更好地理解將視覺映射到語言背後的機制,我們提出這份VLM簡介,希望能幫助任何有意進入該領域的人。首先,我們介紹了VLM的定義、工作原理以及訓練方法。接著,我們提出並討論評估VLM的方法。雖然這份工作主要聚焦於將圖像映射到語言,我們也討論了將VLM擴展至影片的可能性。
Transformer 在算術任務上表現不佳,這主要是因為它們無法準確追蹤大量數位中每個數位的確切位置。我們通過為每個數位添加一個嵌入,以編碼其相對於數字開頭的位置來解決這個問題。除了這些嵌入本身提供的提升外,我們展示了這個修正使得架構修改,如輸入注入和循環層,進一步提高了性能。 有了位置問題解決後,我們可以研究 Transformer 的邏輯外推能力。它們能否解決比訓練數據中更大更複雜的算術問題?我們發現,僅使用單個 GPU 在一天內訓練 20 位數字,就能達到最先進的性能,100 位數字相加問題的準確率可達 99%。 最後,我們展示這些在數字能力上的增益也帶來了對其他多步推理任務的改進,包括排序和乘法。
大型多模型(LMMs)如LLaVA在視覺-語言推理中展現出強大的性能。這些模型首先將圖像嵌入固定數量的視覺標記,然後將其餵入大型語言模型(LLM)。然而,這種設計導致在密集視覺場景(如高分辨率圖像和視頻)中產生過多的標記,導致效率低下。雖然存在標記修剪/合併方法,但它們為每個圖像生成單一長度的輸出,並且無法在信息密度和效率之間提供靈活性。受俄羅斯套娃概念的啟發,我們提出M3:Matryoshka多模型,該模型學習將視覺內容表示為捕獲多個粗到細細粒度信息的嵌套視覺標記集。我們的方法為LMMs提供了幾個獨特的好處:(1)可以在推斷期間明確控制每個測試實例的視覺細微度,例如,根據內容的預期複雜性或簡單性調整用於表示圖像的標記數量;(2)M3為分析現有數據集所需的細微度提供了一個框架,我們發現COCO風格的基準只需要約9個視覺標記即可獲得與使用所有576個標記相似的準確性;(3)我們的方法提供了一個基礎,可以探索在樣本級別上在性能和視覺標記長度之間的最佳折衷,我們的研究顯示神諭上限和當前固定比例表示之間存在著很大的差距。
在這份技術報告中,我們介紹了 Zamba,一個新穎的 7B SSM-Transformer 混合模型,能夠在相當規模上與領先的開放權重模型競爭。Zamba 是在公開可用數據集中訓練的,總共有 1T 個標記,並且是這個規模下最優秀的非 Transformer 模型。Zamba 開創了一種獨特的架構,將 Mamba 骨幹與一個共享的注意力模塊結合,因此以最小的參數成本獲得了注意力的好處。由於其架構,Zamba 在推論時比可比的 Transformer 模型快得多,並且在生成長序列時需要的記憶體明顯較少。Zamba 的預訓練分為兩個階段:第一階段基於現有的網絡數據集,而第二階段則包括對模型進行高質量指導和合成數據集的退火,並以快速的學習速率衰減為特徵。我們通過開源方式提供了 Zamba 的權重和所有檢查點,包括第一階段和退火階段。
基於解碼器的大型語言模型(LLM)嵌入模型開始在一般文本嵌入任務中表現優於基於BERT或T5的嵌入模型,包括基於密集向量的檢索。在這項工作中,我們引入了NV-Embed模型,具有多種架構設計和訓練程序,以顯著提升LLM作為多功能嵌入模型的性能,同時保持其簡單性和可重現性。對於模型架構,我們提出了一個潛在的注意力層來獲取池化嵌入,與使用平均池化或從LLM中使用最後的<EOS>標記嵌入相比,這一方法始終能夠提高檢索和下游任務的準確性。為了增強表示學習,我們在對比訓練期間移除了LLM的因果關注遮罩。對於模型訓練,我們引入了一種兩階段對比指導調整方法。首先,它應用帶有檢索數據集指導的對比訓練,利用批內負例和精心挑選的困難負例。在第二階段,它將各種非檢索數據集融入指導調整中,這不僅提高了非檢索任務的準確性,還改善了檢索性能。通過結合這些技術,我們的NV-Embed模型僅使用公開可用數據,在2024年5月24日達到了69.32的最高分,排名Massive Text Embedding Benchmark(MTEB)第一(截至2024年5月24日),包括檢索、重新排序、分類、聚類和語義文本相似性任務在內的56個任務。值得注意的是,我們的模型還在MTEB基準測試中的15個檢索任務中取得了59.36的最高分(也稱為BEIR)。我們將在以下位置開源模型:https://huggingface.co/nvidia/NV-Embed-v1。
擴散模型卓越的生成能力激發了在影像和影片編輯領域的廣泛研究。相較於面臨時間維度上額外挑戰的影片編輯,影像編輯已經見證了更多元、高品質方法的發展,以及諸如Photoshop等更具能力的軟體。鑑於這種差距,我們提出了一種新穎且通用的解決方案,通過使用預先訓練的影像轉影片模型,將編輯從單幀擴展到整個影片,從而將影像編輯工具的應用範圍擴展到影片。我們的方法名為I2VEdit,根據編輯的程度,能夠適應性地保留源影片的視覺和運動完整性,有效處理全局編輯、局部編輯和中等形狀變化,這是現有方法無法完全實現的。我們方法的核心包括兩個主要過程:粗略運動提取,用於將基本運動模式與原始影片對齊,以及外觀細化,用於使用細粒度注意力匹配進行精確調整。我們還採用了跳過間隔策略,以減輕由於跨多個影片片段的自回歸生成而導致的質量降低。實驗結果證明了我們框架在細粒度影片編輯方面的卓越表現,證明了其能夠生成高品質、時間上一致的輸出。
我們提出了一種新穎的方法,用於從單張圖像在任意視角下生成高質量、時空一致的人類影片。我們的框架結合了 U-Net 的準確條件注入和擴散 Transformer 的全局相關性捕獲能力,用於跨視角和時間的全局相關性捕獲。核心是一種級聯的4D Transformer架構,對視角、時間和空間維度進行了注意力分解,實現了對4D空間的高效建模。通過將人類身份、攝像機參數和時間信號注入到相應的 Transformer 中,實現了精確的條件設置。為了訓練這個模型,我們整理了一個多維數據集,涵蓋圖像、影片、多視圖數據和3D/4D掃描,以及多維訓練策略。我們的方法克服了基於GAN或基於UNet擴散模型的先前方法的局限性,這些方法在處理複雜運動和視角變化時存在困難。通過大量實驗,我們展示了我們的方法合成逼真、一致且自由視角的人類影片的能力,為虛擬現實和動畫等領域的先進多媒體應用打開了道路。我們的項目網站是https://human4dit.github.io。
低秩適配器(LoRA)及其變體是受歡迎的參數高效微調(PEFT)技術,可以與完整模型微調性能密切匹配,同時只需要少量額外參數。這些額外的LoRA參數是特定於正在適應的基礎模型的。當基礎模型需要被淘汰並替換為新模型時,所有相關的LoRA模塊都需要重新訓練。這種重新訓練需要訪問用於訓練原始基礎模型LoRA的數據。這對於商業雲應用尤其棘手,因為LoRA模塊和基礎模型由服務提供商托管,可能不允許托管專有客戶任務數據。為了應對這一挑戰,我們提出了Trans-LoRA——一種新穎的方法,可實現基於模型之間的LoRA無損、幾乎無需數據的轉移。我們的方法依賴於合成數據來轉移LoRA模塊。利用大型語言模型,我們設計了一個合成數據生成器,以近似觀察任務數據子集的生成過程。在生成的合成數據集上訓練,將LoRA模塊轉移到新模型。我們展示了我們的方法在LLama和Gemma模型系列上的有效性。我們的方法實現了在各種任務上模型內部和跨不同基礎模型系列之間,甚至在不同PEFT方法之間的LoRA轉移的無損(大多數情況下改進)。
本文介紹了StreamV2V,一種實現實時串流影片到影片(V2V)翻譯的擴散模型,並支援使用者提示。與先前使用批次處理有限幀的V2V方法不同,我們選擇以串流方式處理幀,以支援無限幀。StreamV2V的核心是一個向後觀看的原則,將現在與過去相關聯。這是通過維護一個特徵庫來實現的,該庫存檔了過去幀的信息。對於傳入的幀,StreamV2V將自注意力擴展到包括存儲的鍵和值,並將類似的過去特徵直接融入輸出中。特徵庫通過合併存儲和新特徵不斷更新,使其既緊湊又信息豐富。StreamV2V以其適應性和效率脫穎而出,與圖像擴散模型無縫集成,無需微調。它可以在一個A100 GPU上運行20 FPS,比FlowVid、CoDeF、Rerender和TokenFlow分別快15倍、46倍、108倍和158倍。定量指標和用戶研究證實了StreamV2V保持時間一致性的卓越能力。
最近在影片生成方面取得了巨大進展,使得可以從文字提示或圖像生成高質量的影片。為影片生成過程添加控制是未來的重要目標,最近的方法將影片生成模型條件化於攝影機軌跡上取得了進展。然而,從多個不同攝影機軌跡生成同一場景的影片仍然具有挑戰性。解決這個多影片生成問題可以實現大規模的3D場景生成,包括可編輯攝影機軌跡等應用。我們引入協同影片擴散(CVD)作為實現這一願景的重要一步。CVD框架包括一個新穎的跨影片同步模塊,通過楔形關注機制促進從不同攝影機姿勢渲染的同一影片對應幀之間的一致性。在基於最先進的攝影機控制模塊進行影片生成的基礎上進行訓練,CVD生成了從不同攝影機軌跡渲染的多個影片,其一致性顯著優於基準,這在廣泛的實驗中得到了證明。項目頁面:https://collaborativevideodiffusion.github.io/。
最近,擴散模型的出現為單視角重建開辟了新的機會。然而,所有現有方法都將目標物體表示為一個缺乏任何結構信息的封閉網格,因此忽略了對於許多下游應用至關重要的基於部件的結構,重建形狀。此外,生成的網格通常存在較大的噪音、不平滑的表面和模糊的紋理,這使得使用3D分割技術獲得滿意的部分片段變得具有挑戰性。在本文中,我們提出了Part123,這是一個從單視角圖像進行部分感知的3D重建的新框架。我們首先使用擴散模型從給定圖像生成多視角一致的圖像,然後利用展示對於任意物體具有強大泛化能力的Segment Anything Model(SAM)生成多視角分割遮罩。為了有效地將2D基於部分的信息納入3D重建並處理不一致性,我們將對比學習引入神經渲染框架,基於多視角分割遮罩學習一個部分感知的特徵空間。同時還開發了基於聚類的算法,從重建模型中自動獲得3D部分分割結果。實驗表明,我們的方法能夠在各種物體上生成具有高質量分割部分的3D模型。與現有的非結構重建方法相比,我們方法生成的部分感知3D模型對於一些重要應用具有益處,包括特徵保留重建、基本拟合和3D形狀編輯。
儘管擴散模型能夠學習複雜的分佈,但取樣需要計算昂貴的迭代過程。現有的蒸餾方法能夠實現高效的取樣,但存在顯著的限制,例如在非常少的取樣步驟下性能下降、依賴訓練數據訪問,或者尋找模式的優化可能無法捕捉完整的分佈。我們提出 EM 蒸餾(EMD),這是一種基於最大概似的方法,將擴散模型提煉為一步生成器模型,並最小化感知質量損失。我們的方法是通過期望最大化(EM)的視角推導出來的,其中生成器參數是使用從擴散教師先驗和推斷生成器潛在變數的聯合分佈中獲取的樣本來更新的。我們開發了一種重新參數化的取樣方案和一種噪聲抵消技術,共同穩定了蒸餾過程。我們進一步揭示了我們的方法與現有最小化尋找模式 KL 的方法之間的有趣關係。EMD 在 ImageNet-64 和 ImageNet-128 的 FID 分數方面優於現有的一步生成方法,並且在提煉文本到圖像擴散模型方面與先前的工作相比表現出色。
視頻生成模型因其能夠生成逼真且富有想像力的幀而受到特別關注。此外,這些模型還表現出強大的三維一致性,顯著增強了它們作為世界模擬器的潛力。在這項工作中,我們提出了Vidu4D,一種優秀的重建模型,能夠準確地從單個生成的視頻中重建4D(即連續的三維)表示,解決了與非剛性和幀失真相關的挑戰。這種能力對於創建保持空間和時間一致性的高保真虛擬內容至關重要。Vidu4D的核心是我們提出的動態高斯曲面元(DGS)技術。DGS優化了時間變化的變形函數,將高斯曲面元(表面元素)從靜態狀態轉換為動態變形狀態。這種轉換使得能夠準確描述隨時間變化的運動和變形。為了保持與表面對齊的高斯曲面元的結構完整性,我們基於連續變形場設計了用於估計法線的變形狀態幾何正則化。此外,我們學習了高斯曲面元的旋轉和縮放參數的改進,大大減輕了變形過程中的紋理閃爍,並增強了對細微外觀細節的捕捉。Vidu4D還包含一種新穎的初始化狀態,為DGS中的變形場提供了適當的起點。將現有的視頻生成模型與Vidu4D結合,整體框架展示了在外觀和幾何上高保真的文本到4D生成。
深度學習模型的良好初始化至關重要,因為它有助於使模型更好地且更快速地收斂。然而,對許多研究人員來說,預訓練大型模型是負擔不起的,這使得對初始參數進行理想預測變得更加必要。圖形超網絡(GHNs)是一種預測模型參數的方法,最近在初始化大視覺模型方面表現出色。不幸的是,預測非常寬的網絡的參數依賴於多次複製小塊參數,並且需要極其龐大的參數來支持完整預測,這在實踐中大大阻礙了其應用。為了解決這一限制,我們提出了LoGAH(低秩圖形超網絡),這是一種具有低秩參數解碼器的GHN,可擴展到更寬的網絡,而不需要像以前的嘗試那樣極度增加參數。LoGAH使我們能夠以節省內存的方式預測774百萬個大型神經網絡的參數。我們展示了使用LoGAH初始化的視覺和語言模型(即ViT和GPT-2)比隨機初始化或使用現有超網絡實現更好的性能。此外,我們展示了關於在小數據集上訓練LoGAH並使用預測的參數來初始化更大任務的有前途的遷移學習結果。我們在https://github.com/Blackzxy/LoGAH 提供了代碼。
我們解決了學習如何在規模上學習有效的基於像素的圖像擴散模型的長期問題,引入了一種非常簡單的貪婪增長方法,用於穩定訓練大規模、高分辨率模型,而無需級聯的超分辨率組件。關鍵見解源於對核心組件的精心預訓練,即負責文本到圖像對齊和高分辨率渲染的組件。我們首先展示了擴展 Shallow UNet 的好處,沒有下(上)採樣的編(解)碼器。擴展其深層核心層被證明可以改善對齊、對象結構和構圖。基於這個核心模型,我們提出了一種貪婪算法,將架構擴展到高分辨率端對端模型,同時保持預訓練表示的完整性,穩定訓練,並減少對大型高分辨率數據集的需求。這使得一個單階段模型能夠生成高分辨率圖像,而無需超分辨率級聯。我們的主要結果依賴於公共數據集,並顯示我們能夠訓練高達 80 億參數的非級聯模型,而無需進一步的正則化方案。Vermeer,我們的完整管道模型使用內部數據集進行訓練以生成 1024x1024 圖像,無需級聯,被 44.0% 的人類評估者更喜歡,而 SDXL 則為 21.4%。