每日精選AI研究論文及翻譯
基礎模型,現在支持大多數深度學習中令人興奮的應用,幾乎普遍基於Transformer架構及其核心注意力模組。許多次線性時間架構,如線性注意力、閘控卷積和循環模型,以及結構化狀態空間模型(SSMs),已被開發來解決Transformer在長序列上的計算效率問題,但在重要模態(如語言)上並未表現出色。我們確定此類模型的一個關鍵弱點是它們無法執行基於內容的推理,並進行了幾項改進。首先,簡單地讓SSM參數成為輸入的函數,解決了它們在離散模態方面的弱點,使模型能夠根據當前標記有選擇性地沿著序列長度維度傳播或遺忘信息。其次,即使這種改變阻止了高效卷積的使用,我們設計了一個硬件感知的並行算法以循環模式運行。我們將這些有選擇性的SSMs集成到一個簡化的無注意力或甚至MLP塊(Mamba)的端到端神經網絡架構中。Mamba具有快速推理能力(比Transformer高5倍的吞吐量)和序列長度的線性擴展,其性能在真實數據上提高,可達到百萬長度序列。作為一個通用的序列模型骨幹,Mamba在語言、音頻和基因組等多個模態上實現了最先進的性能。在語言建模方面,我們的Mamba-3B模型優於相同大小的Transformer模型,在預訓練和下游評估中與兩倍大小的Transformer模型性能相當。
我們介紹了MoMask,一種用於基於文本驅動的3D人體運動生成的新型遮罩建模框架。在MoMask中,採用了分層量化方案,將人體運動表示為具有高保真度細節的多層離散運動標記。從基礎層開始,通過向量量化獲得的一系列運動標記,派生並存儲在階層的後續層中的增量標記。隨後是兩個不同的雙向變壓器。對於基礎層運動標記,設計了一個遮罩變壓器,在訓練階段預測隨機遮罩的運動標記,並以文本輸入為條件。在生成(即推理)階段,從空序列開始,我們的遮罩變壓器迭代地填補缺失的標記;隨後,一個剩餘變壓器學習根據當前層的結果逐步預測下一層的標記。大量實驗表明,MoMask在文本到運動生成任務上優於最先進的方法,HumanML3D數據集的FID為0.045(例如T2M-GPT的0.141),在KIT-ML上為0.228(0.514)。MoMask還可以無縫應用於相關任務,無需進行進一步的模型微調,例如文本引導的時間修補。
我們提出了DREAM,一個新穎的訓練框架,代表Diffusion Rectification and Estimation-Adaptive Models,只需要進行最少的程式碼更改(僅三行),卻顯著增強了訓練與擴散模型取樣之間的對齊。DREAM具有兩個組件:擴散校正,調整訓練以反映取樣過程,以及估計適應,平衡感知和失真之間的關係。當應用於影像超分辨率(SR)時,DREAM能夠巧妙地在最小化失真與保留高影像質量之間找到平衡。實驗證明DREAM優於標準基於擴散的SR方法,顯示訓練收斂速度快2到3倍,所需取樣步驟減少10到20倍,以達到可比或更優質的結果。我們希望DREAM能激發對擴散模型訓練範式的重新思考。
最近,多模式大型語言模型(MLLMs)在多模式理解、推理和互動方面展示了令人印象深刻的能力。然而,現有的MLLMs普遍存在嚴重的幻覺問題,生成的文本與相關圖像的事實基礎不符。這個問題使現有的MLLMs不可信,因此在現實世界(尤其是高風險應用)中不實用。為了應對這一挑戰,我們提出了RLHF-V,通過從細粒度校正的人類反饋中增強MLLM的可信度。具體來說,RLHF-V收集人類偏好,以段落級別的校正形式對幻覺進行修正,並對人類反饋進行密集的直接偏好優化。在自動和人工評估中對五個基準進行的全面實驗表明,RLHF-V可以實現更加可信賴的MLLM行為,具有有前途的數據和計算效率。值得注意的是,使用1.4k標註數據樣本,RLHF-V將基礎MLLM的幻覺率降低了34.8%,優於使用10k標註數據訓練的同時LLaVA-RLHF。最終模型在開源MLLM中實現了最先進的可信度表現,並且在防止由於過度泛化引起的幻覺方面比GPT-4V表現更好。我們在https://github.com/RLHF-V/RLHF-V 開源了我們的代碼、模型和數據。
從性有限觀測中合成新視角仍然是一項重要且持久的任務。然而,現有基於 NeRF 的少樣本視角合成方法往往在高效率方面存在妥協,以獲得準確的三維表示。為應對這一挑戰,我們提出了一種基於三維高斯塗點的少樣本視角合成框架,可實現實時且照片逼真的視角合成,僅需三個訓練視角。所提出的方法名為 FSGS,通過精心設計的高斯展開過程處理極度稀疏的初始 SfM 點。我們的方法通過在最具代表性的位置周圍迭代分佈新的高斯函數,隨後填補空白區域中的局部細節。我們還在高斯優化過程中整合了大規模預訓練的單眼深度估計器,利用在線增強視角來引導幾何優化朝向最佳解決方案。從從有限輸入視點觀察到的稀疏點開始,我們的 FSGS 能夠準確擴展到未見區域,全面覆蓋場景並提升新視角的渲染質量。總的來說,FSGS 在各種數據集(包括 LLFF、Mip-NeRF360 和 Blender)上均實現了準確性和渲染效率的最新性能。項目網站:https://zehaozhu.github.io/FSGS/。
神經渲染方法在各種學術和工業應用中顯著推進了逼真的3D場景渲染。最近的3D高斯濺射方法已經實現了最先進的渲染質量和速度,結合了基於基元的表示和體積表示的優勢。然而,這常常導致高度冗余的高斯函數,試圖擬合每個訓練視圖,忽略了底層場景幾何。因此,結果模型對於重要視角變化、無紋理區域和照明效果變得不夠穩健。我們介紹了Scaffold-GS,它使用錨點來分佈本地3D高斯函數,並根據視角和視圖截錄體內的距離即時預測它們的屬性。基於神經高斯函數的重要性,我們制定了錨點生長和修剪策略,以可靠地提高場景覆蓋率。我們展示了我們的方法有效地減少了冗余的高斯函數,同時提供高質量的渲染。我們還展示了增強的能力,以容納具有不同細節級別和視角依賴觀察的場景,而不會犧牲渲染速度。
透過利用文本到圖像(T2I)擴散模型,文本引導的3D面部合成已經取得了顯著的成果。然而,大多數現有的研究僅專注於直接生成,忽略了編輯,限制了它們無法通過迭代調整來合成定制的3D面部。在本文中,我們提出了一個從面部生成到編輯的統一文本引導框架。在生成階段,我們提出了一種幾何-紋理解耦生成,以減輕由耦合引起的幾何細節損失。此外,解耦使我們能夠將生成的幾何用作紋理生成的條件,產生高度一致的幾何-紋理結果。我們進一步採用了一個經過微調的紋理擴散模型,以提高RGB和YUV空間中的紋理質量。在編輯階段,我們首先使用預先訓練的擴散模型根據文本更新面部幾何或紋理。為了實現順序編輯,我們引入了一個UV域一致性保留正則化,防止對無關面部特徵的意外更改。此外,我們提出了一種自導一致性權重策略,以提高編輯效率同時保持一致性。通過全面的實驗,我們展示了我們的方法在面部合成中的優越性。項目頁面:https://faceg2e.github.io/.
神經輻射場(NeRFs)可以通過空間網格表示大幅加速。然而,它們並未明確地考慮尺度,因此在重建以不同攝像機距離捕捉的場景時會引入混疊異構。Mip-NeRF及其擴展提出了具有尺度感知的渲染器,該渲染器投影體積錐體而不是點樣本,但這些方法依賴於位置編碼,這些編碼與網格方法不太相容。我們提出了一種對基於網格的模型進行簡單修改的方法,即在不同的空間網格分辨率下訓練模型頭。在渲染時,我們簡單地使用更粗糙的網格來渲染涵蓋更大體積的樣本。我們的方法可以輕鬆應用於現有的加速NeRF方法,並顯著改善渲染質量(在合成和無邊界的真實場景中將錯誤率降低20-90%),同時產生最小的性能開銷(因為每個模型頭的評估速度很快)。與Mip-NeRF相比,我們將錯誤率降低了20%,同時訓練速度提高了60倍。
近年來,自動文本轉3D內容創作取得了顯著進展,這得益於預訓練的2D擴散模型的發展。現有的文本轉3D方法通常優化3D表示,以確保渲染的圖像與給定文本良好對齊,由預訓練的2D擴散模型評估。然而,2D圖像和3D資產之間存在顯著的領域差距,主要歸因於與相機相關的屬性變化和前景物體的獨特存在。因此,直接使用2D擴散模型來優化3D表示可能導致次優結果。為了解決這個問題,我們提出了X-Dreamer,一種新穎的高質量文本轉3D內容創作方法,有效地彌合了文本轉2D和文本轉3D合成之間的差距。X-Dreamer的關鍵組件是兩個創新設計:Camera-Guided Low-Rank Adaptation(CG-LoRA)和Attention-Mask Alignment(AMA)Loss。CG-LoRA通過使用與相機相關的生成來訓練參數,動態地將相機信息整合到預訓練的擴散模型中。這種整合增強了生成的3D資產與相機視角之間的對齊。AMA loss使用3D物體的二值化遮罩引導預訓練擴散模型的注意力地圖,優先考慮前景物體的創建。該模塊確保模型專注於生成準確和詳細的前景物體。廣泛的評估顯示了我們提出的方法相對於現有的文本轉3D方法的有效性。我們的項目網頁:https://xmuxiaoma666.github.io/Projects/X-Dreamer。