每日精選AI研究論文及翻譯
擴散模型是影像和影片合成進展的主要推動力,但受限於推論速度緩慢。蒸餾方法,如最近引入的對抗性擴散蒸餾(ADD),旨在將模型從多步驟推論轉變為單步驟,儘管這將帶來昂貴且困難的優化成本,因為它依賴於固定預訓練的 DINOv2 判別器。我們提出了潛在對抗性擴散蒸餾(LADD),這是一種克服 ADD 限制的新型蒸餾方法。與基於像素的 ADD 不同,LADD 利用預訓練的潛在擴散模型的生成特徵。這種方法簡化了訓練並增強了性能,實現了高解析度多方位比例的影像合成。我們將 LADD 應用於 Stable Diffusion 3(8B)以獲得 SD3-Turbo,這是一個快速模型,僅使用四個未引導的採樣步驟即可匹配最先進的文本到影像生成器的性能。此外,我們系統地研究了其擴展行為,並展示了 LADD 在各種應用中的有效性,如影像編輯和修補。
從人類反饋中學習的強化學習(RLHF)已被證明是一種強大的方法,可以使預訓練的大型語言模型(LLMs)與人類偏好保持一致。但使用RLHF訓練模型在計算上是昂貴的,並且是一個整體複雜的過程。在這項工作中,我們研究了在使用由胡等人(2021年)引入的低秩適應(LoRA)參數高效方法訓練底層模型的RLHF。我們研究了“參數高效強化學習”(PERL)的設置,其中我們使用LoRA進行獎勵模型訓練和強化學習。我們將PERL與傳統的微調(全調整)在包括2個新數據集在內的7個基準配置中進行比較,這些數據集涉及獎勵建模和強化學習。我們發現PERL的性能與傳統的RLHF設置相當,同時訓練速度更快,並且佔用的記憶體更少。這使得RLHF能夠高效運行,同時減輕了限制其作為大型語言模型對齊技術的採用的計算負擔。我們還釋出了兩個新的好評/差評偏好數據集:“Taskmaster Coffee”和“Taskmaster Ticketing”,以促進圍繞RLHF的研究。
在當今,有效且準確地更新存儲在大型語言模型(LLMs)中的知識是最迫切的研究挑戰之一。本文介紹了Larimar - 一種新穎的、受大腦啟發的架構,用於通過分佈式情景記憶來增強LLMs。Larimar的記憶允許動態、一次性地更新知識,無需進行計算昂貴的重新訓練或微調。在多個事實編輯基準測試中的實驗結果表明,Larimar實現了與大多數競爭基準相當的準確性,即使在具有挑戰性的順序編輯設置中,也表現出色,同時在速度方面優勢明顯 - 根據基礎LLM的不同,加速效果為4-10倍 - 並且由於所提出的架構簡單、與LLM無關,因此具有通用性。我們進一步提供了選擇性事實遺忘和輸入上下文長度泛化的機制,並展示了它們的有效性。
我們提出了穩定影片3D(SV3D)- 一種潛在影片擴散模型,用於高解析度的圖像到多視角生成環繞3D物體的軌道影片。最近關於3D生成的研究提出了技術,以適應2D生成模型進行新視角合成(NVS)和3D優化。然而,這些方法由於視角有限或NVS不一致而存在一些缺點,進而影響3D物體生成的性能。在這項工作中,我們提出了SV3D,該模型適應圖像到影片擴散模型,用於新多視角合成和3D生成,從而利用影片模型的泛化和多視角一致性,同時進一步增加了對NVS的明確攝像頭控制。我們還提出了改進的3D優化技術,以使用SV3D及其NVS輸出進行圖像到3D生成。在多個數據集上進行的廣泛實驗結果,包括2D和3D指標以及用戶研究,證明了SV3D在NVS以及3D重建方面相對於先前作品的最新性能。
借鑑最新的擴散模型在文本到圖像生成方面的進展,保持身份的個性化已經在準確捕捉特定身份方面取得了顯著進展,僅需一張參考圖像。然而,現有方法主要將參考圖像整合到文本嵌入空間中,導致圖像和文本信息的複雜交織,這對於保持身份忠實度和語義一致性提出了挑戰。為應對這一挑戰,我們提出了Infinite-ID,這是一種用於保持身份的個性化的ID-語義解耦範式。具體而言,我們引入了增強身份的訓練,將額外的圖像交叉注意力模組納入其中,以捕獲足夠的ID信息,同時停用擴散模型的原始文本交叉注意力模組。這確保圖像流忠實地呈現參考圖像提供的身份,同時減輕來自文本輸入的干擾。此外,我們引入了一個特徵交互機制,將混合注意力模組與AdaIN-mean操作相結合,無縫地融合兩個流。這個機制不僅增強了身份和語義一致性的忠實度,還能方便地控制生成圖像的風格。對原始照片生成和風格圖像生成的大量實驗結果證明了我們提出的方法的優越性能。
視覺編碼是理解視覺世界的大型多模型(LMMs)的基礎。傳統的LMMs處理固定尺寸和有限分辨率的圖像,而最近在這個方向上的探索受限於適應性、效率,甚至正確性。在這項工作中,我們首先以GPT-4V和LLaVA-1.5作為代表性例子,揭示了它們的視覺編碼策略中存在的系統性缺陷。為應對這些挑戰,我們提出了LLaVA-UHD,一個大型多模型,能夠高效地感知任何長寬比和高分辨率的圖像。LLaVA-UHD包括三個關鍵組件:(1)一種圖像模塊化策略,將原始分辨率圖像分成較小的可變大小片段,以進行高效且可擴展的編碼,(2)一個壓縮模塊,進一步壓縮來自視覺編碼器的圖像標記,以及(3)一個空間模式,用於組織片段標記以供LLMs使用。全面的實驗表明,LLaVA-UHD在9個基準測試中優於使用2-3個數量級更多數據訓練的已建立的LMMs。值得注意的是,我們基於LLaVA-1.5 336x336構建的模型支持6倍更大(即672x1088)分辨率的圖像,僅使用94%的推理計算,並在TextVQA上實現6.4的準確性改進。此外,該模型可以在學術環境中高效地訓練,在8個A100 GPU上僅需23小時(相較於LLaVA-1.5的26小時)。我們將數據和代碼公開發布在https://github.com/thunlp/LLaVA-UHD。
我們介紹了 LightIt,一種用於影像生成的明確照明控制方法。最近的生成方法缺乏照明控制,這對於影像生成的許多藝術方面至關重要,例如設定整體情緒或電影外觀。為了克服這些限制,我們建議將生成條件設定為陰影和法向圖。我們使用單次反射陰影來建模照明,其中包括投影陰影。我們首先訓練一個陰影估計模組來生成一組真實世界影像和陰影對。然後,我們使用估計的陰影和法向作為輸入來訓練一個控制網絡。我們的方法展示了高質量的影像生成和照明控制在許多場景中。此外,我們使用我們生成的數據集來訓練一個保持身份的照明模型,條件是一個影像和一個目標陰影。我們的方法是第一個能夠生成具有可控、一致照明的影像並與專門的照明最先進方法相媲美的方法。
開放域3D物體合成相較於影像合成進展緩慢,原因在於資料有限以及較高的計算複雜度。為彌補這一差距,最近的研究作品探討了多視角擴散,但往往在3D一致性、視覺品質或效率方面表現不佳。本文提出了MVEdit,作為SDEdit的3D對應版本,採用祖先取樣來同時去噪多視角影像並輸出高質量紋理網格。基於現成的2D擴散模型,MVEdit通過訓練免費的3D適配器實現3D一致性,該適配器將最後時間步的2D視圖提升為一致的3D表示,然後使用渲染視圖來條件化下一時間步的2D視圖,同時不影響視覺品質。該框架的推理時間僅為2-5分鐘,比得分蒸餾實現了更好的品質和速度之間的折衷。MVEdit非常靈活且可擴展,具有廣泛的應用,包括文本/圖像到3D生成、3D到3D編輯以及高質量紋理合成。特別是,評估顯示在影像到3D和文本引導的紋理生成任務中表現出最先進的性能。此外,我們介紹了一種方法,可以在資源有限的情況下對小型3D數據集上的2D潛在擴散模型進行微調,實現快速低分辨率文本到3D的初始化。
從大腦活動重建視覺知覺已經有了巨大的進步,但是這些方法的實際應用價值卻受到了限制。這是因為這些模型是為每個受試者獨立訓練的,每個受試者需要數十小時昂貴的 fMRI 訓練數據才能獲得高質量的結果。本研究展示了僅使用 1 小時的 fMRI 訓練數據即可實現高質量的重建。我們在 7 名受試者間預先訓練我們的模型,然後在新受試者的極少數數據上進行微調。我們的新穎功能對齊程序將所有腦部數據線性映射到共享受試者潛在空間,然後通過共享非線性映射到 CLIP 圖像空間。然後,我們通過微調 Stable Diffusion XL 以接受 CLIP 潛在作為輸入,將從 CLIP 空間映射到像素空間。這種方法改善了對於有限訓練數據的跨受試者泛化,並且與單受試者方法相比實現了最先進的圖像檢索和重建指標。MindEye2 展示了如何從一次造訪核磁共振成像設施即可實現準確的知覺重建。所有代碼都可以在 GitHub 上找到。
我們探討如何通過引入一種新型統一記憶機制,來協調多個基礎模型(大型語言模型和視覺語言模型),以應對具有挑戰性的視頻理解問題,特別是捕捉長視頻中的長期時間關係。具體而言,所提出的多模態代理VideoAgent:1)構建了一個結構化記憶體,用於存儲視頻的通用時間事件描述和以物為中心的追踪狀態;2)在給定輸入任務查詢時,它利用視頻段定位和物體記憶查詢等工具,以及其他視覺基礎模型來互動解決任務,利用LLM的零-shot工具使用能力。VideoAgent在幾個長視頻理解基準測試中展現出令人印象深刻的表現,相對於基準模型,NExT-QA平均提高了6.6%,EgoSchema提高了26.0%,縮小了開源模型和包括Gemini 1.5 Pro在內的私有對手之間的差距。
機器學習(ML)的進展得益於對神經網絡模型的擴展。這種擴展是通過越來越英勇的工程技術成就實現的,這些成就是為了滿足需要高頻寬通信的ML方法而進行的,這些方法需要在並行工作的設備之間進行通信。在這項工作中,我們提出了一種共同設計的模塊化架構和訓練方法,用於ML模型,名為DIstributed PAth COmposition(DiPaCo)。在訓練期間,DiPaCo通過一組共享模塊的路徑分配計算。結合了受Local-SGD啟發的優化(DiLoCo),該方法通過大幅減少通信來保持模塊同步,有助於在連接不佳和異構工作器之間進行訓練,並確保對工作器故障和抢占具有韌性的設計。在推斷時,每個輸入只需要執行一條路徑,無需進行任何模型壓縮。我們認為這種方法是朝著一種新的大規模學習範式的第一個原型,這種範式不太同步,更模塊化。我們在廣泛使用的C4基準測試上進行的實驗表明,對於相同數量的訓練步驟但更少的牆鐘時間,DiPaCo通過選擇256條可能的路徑之一,每條路徑包含1.5億參數,超越了一個10億參數的密集變壓器語言模型的性能。
神經渲染領域隨著生成模型和可微渲染技術的進步取得了顯著進展。儘管2D擴散取得了成功,但統一的3D擴散管道仍未確定。本文介紹了一個名為LN3Diff的新框架,以填補這一空白,實現快速、高質量和通用的有條件3D生成。我們的方法利用3D感知架構和變分自編碼器(VAE)將輸入圖像編碼為結構化、緊湊和3D潛在空間。透過基於變換器的解碼器將潛在解碼為高容量的3D神經場。通過在這個3D感知潛在空間上訓練擴散模型,我們的方法在ShapeNet上實現了最先進的3D生成性能,並在各種數據集上展示了在單眼3D重建和有條件3D生成方面的優越性能。此外,它在推理速度方面超越了現有的3D擴散方法,無需每個實例進行優化。我們提出的LN3Diff在3D生成建模方面取得了重大進展,並在3D視覺和圖形任務中展示了各種應用的潛力。
本文提出了一種新穎的範式,用於構建可擴展的3D生成模型,利用預先訓練的視頻擴散模型。在開發基礎3D生成模型時的主要障礙是3D數據的有限可用性。與圖像、文本或視頻不同,3D數據並不容易獲取,難以獲得。這導致與其他類型的數據相比規模存在顯著差異。為了解決這個問題,我們提議使用一個視頻擴散模型,通過大量文本、圖像和視頻訓練,作為3D數據的知識來源。通過微調來解鎖其多視角生成能力,我們生成了一個大規模的合成多視角數據集,用於訓練前向3D生成模型。所提出的模型VFusion3D,在近300萬個合成多視角數據上訓練,可以在幾秒鐘內從單張圖像生成3D資產,與當前最先進的前向3D生成模型相比,性能優越,用戶超過70%的時間更喜歡我們的結果。