每日精選AI研究論文及翻譯
PaliGemma 2 是基於 Gemma 2 語言模型家族的 PaliGemma 開放式視覺語言模型(VLM)的升級版本。我們將 SigLIP-So400m 視覺編碼器與 PaliGemma 一同使用的Gemme 2 系列模型結合起來,從 2B 模型一直到 27B 模型。我們在三個解析度(224px、448px 和 896px)上進行多階段訓練,為這些模型提供廣泛的知識,以便透過微調進行轉移。結果形成的基礎模型家族涵蓋不同的模型大小和解析度,使我們能夠研究影響轉移性能的因素(如學習速率),並分析任務類型、模型大小和解析度之間的相互作用。我們進一步擴大了轉移任務的數量和範圍,超出了 PaliGemma 的範圍,包括不同的OCR相關任務,如表結構識別、分子結構識別、音樂譜識別,以及長篇細緻字幕和放射學報告生成,PaliGemma 2 在這些任務上取得了最先進的結果。
最近的研究方法在將多步驟的文本到圖像擴散模型轉化為單步驟模型方面取得了令人鼓舞的成果。最先進的高效擴散技術,即SwiftBrushv2(SBv2),甚至在資源有限的情況下超越了教師模型的表現。然而,我們的研究揭示了由於在變分分數蒸餾(VSD)損失中使用固定的引導尺度,導致其在處理不同擴散模型骨幹時的不穩定性。現有單步驟擴散模型的另一個弱點是缺乏對負面提示引導的支持,在實際圖像生成中至關重要。本文提出了SNOOPI,這是一個新穎的框架,旨在增強一步驟擴散模型在訓練和推斷過程中的引導,以應對這些限制。首先,我們通過Proper Guidance-SwiftBrush(PG-SB)有效增強了訓練穩定性,該方法採用了一種無需分類器的隨機尺度引導方法。通過改變教師模型的引導尺度,我們擴展了它們的輸出分佈,從而產生更穩健的VSD損失,使SB能夠在各種骨幹上有效執行,同時保持競爭力。其次,我們提出了一種無需訓練的方法,稱為Negative-Away Steer Attention(NASA),通過交叉關注將負面提示整合到一步驟擴散模型中,以抑制生成圖像中的不需要元素。我們的實驗結果表明,我們提出的方法在各種指標上顯著改善了基準模型。值得注意的是,我們實現了31.08的HPSv2分數,為一步擴散模型設立了新的最先進基準。
我們提出了TokenFlow,一種新型的統一圖像分詞器,彌合了多模應理解和生成之間長期存在的差距。先前的研究嘗試使用一個針對重建目標的向量量化(VQ)編碼器來統一這兩個任務。我們觀察到,理解和生成需要基本上不同粒度的視覺信息。這導致了一個關鍵的折衷,特別是在多模應理解任務的表現上受到損害。TokenFlow通過一種創新的雙碼書架構應對這一挑戰,該架構解耦了語義和像素級特徵學習,同時通過共享映射機制保持它們的對齊。這種設計使得通過共享索引直接訪問對於理解任務至關重要的高級語義表示和對於生成至關重要的細粒度視覺特徵成為可能。我們的大量實驗證明了TokenFlow在多個維度上的優越性。利用TokenFlow,我們首次展示了離散視覺輸入可以在理解性能上超越LLaVA-1.5 13B,實現了7.2%的平均改進。對於圖像重建,我們在384*384分辨率下實現了強大的FID分數為0.63。此外,TokenFlow在自回歸圖像生成方面建立了最先進的性能,256*256分辨率下的GenEval分數為0.55,實現了與SDXL可比的結果。
360度視頻提供了一種超級沉浸式體驗,讓觀眾可以從完整的360度探索動態場景。為了在360度視頻格式中實現更加用戶友好和個性化的內容創作,我們致力於將標準透視視頻轉換為360度等矩形視頻。為此,我們引入了Imagine360,這是第一個透視到360度視頻生成框架,可以從視頻錨點生成具有豐富和多樣運動模式的高質量360度視頻。Imagine360從有限的360度視頻數據中學習了精細的球面視覺和運動模式,具有幾個關鍵設計。首先,我們採用了雙分支設計,包括透視和全景視頻去噪分支,為360度視頻生成提供局部和全局約束,並在擴展的Web 360度視頻上對運動模塊和空間LoRA層進行微調。此外,還設計了一個對極遮罩,用於捕捉長距離運動依賴性,增強了跨半球的對極像素之間的相反相機運動。為了應對多樣的透視視頻輸入,我們提出了適應不同視頻遮罩的高程感知設計,以應對幀間高程變化。大量實驗表明,Imagine360在360度視頻生成方法中具有出色的圖形質量和運動連貫性。我們相信Imagine360有望推動個性化、沉浸式360度視頻創作的發展。
擴散模型已被應用於 3D LiDAR 場景完成,因為其強大的訓練穩定性和高完成質量。然而,由於自動駕駛車輛需要對周圍環境進行高效感知,擴散模型的慢採樣速度限制了基於擴散的場景完成模型的實際應用。本文提出了一種針對 3D LiDAR 場景完成模型量身定制的新型蒸餾方法,名為 ScoreLiDAR,實現了高效且高質量的場景完成。ScoreLiDAR 使經過蒸餾的模型在蒸餾後能夠在更少的步驟中進行採樣。為了提高完成質量,我們還引入了一種新型結構損失,該損失鼓勵經過蒸餾的模型捕捉 3D LiDAR 場景的幾何結構。該損失包含一個場景層面的術語,限制整體結構,以及一個點層面的術語,限制關鍵地標點及其相對配置。大量實驗表明,ScoreLiDAR 將 SemanticKITTI 上每幀的完成時間從 30.55 秒加速到 5.37 秒(>5倍),並且相較於最先進的 3D LiDAR 場景完成模型,實現了卓越的性能。我們的代碼公開在 https://github.com/happyw1nd/ScoreLiDAR。
近期在視頻大型多模型(LMMs)方面的進展顯著提高了它們對視頻理解和推理能力。然而,在訓練數據中低頻的分布外(OOD)任務上,它們的性能下降。傳統方法,如在OOD數據集上微調,由於高計算成本而不切實際。儘管在語言任務和圖像語言任務中,通過示範示例進行的上下文學習(ICL)在無需微調的情況下表現出有希望的泛化性能,但將ICL應用於視頻語言任務面臨挑戰,因為視頻需要更長的標記長度。為了應對這些問題,我們提出了VideoICL,一種新穎的視頻上下文學習框架,用於OOD任務,引入了基於相似性的相關示例選擇策略和基於信心的迭代推理方法。這使得可以選擇最相關的示例並根據相似性對其進行排名,以供推理使用。如果生成的響應信心不足,我們的框架將選擇新的示例並再次進行推理,通過迭代改進結果,直到獲得高信心的響應。這種方法通過擴展有效上下文長度而不產生高成本,提高了OOD視頻理解性能。在多個基準測試中的實驗結果顯示了顯著的性能增益,特別是在特定領域情景下,為更廣泛的視頻理解應用奠定了基礎。代碼將在https://github.com/KangsanKim07/VideoICL 上發布。
建構逼真且可動畫化的頭像仍需數分鐘的多視角或單眼自轉影片,而大多數方法缺乏對手勢和表情的精確控制。為了突破這一界限,我們解決了從單張圖像建構全身說話頭像的挑戰。我們提出了一個新穎的流程,解決了兩個關鍵問題:1)複雜的動態建模和2)對新手勢和表情的泛化。為了實現無縫泛化,我們利用最近的姿勢引導圖像到視頻擴散模型來生成不完美的視頻幀作為虛標籤。為了克服由不一致和嘈雜的虛擬視頻帶來的動態建模挑戰,我們引入了緊密耦合的3DGS-網格混合頭像表示,並應用了幾個關鍵的正則化方法來減輕由於不完美標籤引起的不一致性。對於不同主題的廣泛實驗表明,我們的方法使得僅憑一張圖像就能創建出逼真、精確可動畫且表現豐富的全身說話頭像。
本文介紹了一個開源的韓英視覺語言模型(VLM),名為VARCO-VISION。我們採用了一種逐步訓練策略,使模型能夠同時學習語言和視覺信息,同時保留骨幹模型的知識。相較於相似大小的模型,我們的模型在需要雙語圖像文本理解和生成能力的多樣情境中表現出色。VARCO-VISION還能夠進行基於場景的、參考性的和OCR等任務,擴展了其在現實場景中的應用和潛在應用。除了模型之外,我們釋出了五個韓文評估數據集,包括四個閉集和一個開放集的基準測試。我們預期這一里程碑將擴大AI研究人員培訓VLM的機會。VARCO-VISION可在https://huggingface.co/NCSOFT/VARCO-VISION-14B找到。
本文介紹了MIDI,一種從單張圖像生成組合式3D場景的新範式。與現有依賴重建或檢索技術的方法或最近利用多階段逐個對象生成的方法不同,MIDI將預訓練的圖像到3D對象生成模型擴展到多實例擴散模型,實現多個3D實例的同時生成,具有準確的空間關係和高泛化能力。在其核心,MIDI包含一種新穎的多實例注意機制,有效地捕捉對象之間的相互作用和空間一致性,直接在生成過程中進行,無需複雜的多步驟過程。該方法利用部分對象圖像和全局場景上下文作為輸入,在3D生成過程中直接對對象完成進行建模。在訓練期間,我們有效地監督3D實例之間的交互作用,使用有限量的場景級數據,同時將單個對象數據納入正則化,從而保持預訓練的泛化能力。MIDI在圖像到場景生成方面展示了最先進的性能,通過對合成數據、現實世界場景數據以及由文本到圖像擴散模型生成的風格化場景圖像進行評估進行驗證。
最近生成模型的進步顯著提升了從多視角數據進行新視角合成(NVS)的能力。然而,現有方法依賴外部多視角對齊過程,如顯式姿勢估計或預重建,這限制了它們的靈活性和可訪問性,特別是當由於視角之間的重疊不足或遮蔽而導致對齊不穩定時。在本文中,我們提出了一種名為NVComposer的新方法,它消除了對明確外部對齊的需求。NVComposer通過引入兩個關鍵組件使生成模型能夠隱式推斷多個條件視角之間的空間和幾何關係:1)圖像-姿勢雙流擴散模型,同時生成目標新視角和條件相機姿勢,以及2)幾何感知特徵對齊模塊,在訓練過程中從密集立體模型中提煉幾何先驗。大量實驗表明,NVComposer在生成多視角NVS任務中實現了最先進的性能,消除了對外部對齊的依賴,從而提高了模型的可訪問性。我們的方法在合成質量方面顯示出顯著的改進,隨著未定位輸入視角數量的增加,突顯了其對更靈活和可訪問的生成NVS系統的潛力。
我們介紹了NitroFusion,這是一種徹底不同的單步擴散方法,通過動態對抗框架實現高質量生成。雖然一步方法具有顯著的速度優勢,但通常與多步方法相比會出現質量下降的問題。就像一組藝術評論家通過專注於不同方面(如構圖、色彩和技術)提供全面反饋一樣,我們的方法保持了一個大型的專業鑑別器頭部池,共同引導生成過程。每個鑑別器組在不同噪聲水平上對特定質量方面發展專業知識,提供多樣化反饋,從而實現高保真的一步生成。我們的框架結合了:(i)具有專業鑑別器組的動態鑑別器池,以提高生成質量,(ii)策略性刷新機制以防止鑑別器過度擬合,以及(iii)用於多尺度質量評估的全局-局部鑑別器頭,以及無條件/有條件訓練以實現平衡生成。此外,我們的框架獨特地支持通過自下而上的細化進行靈活部署,使用戶可以動態選擇1-4個去噪步驟,使用同一模型進行直接質量-速度權衡。通過全面的實驗,我們展示了NitroFusion在多個評估指標上明顯優於現有的單步方法,特別擅長保留細節和全局一致性。
多模式大型語言模型(MLLMs)的快速發展顯著影響了各種多模式任務。然而,這些模型在需要對3D環境內的空間理解的任務中面臨挑戰。為增強MLLMs的努力,例如整合點雲特徵,已經開展,但模型學習表示與3D場景固有複雜性之間仍存在相當大的差距。這種差異主要源於MLLMs在主要為2D數據進行訓練,這限制了它們在理解3D空間方面的效果。為解決這個問題,在本文中,我們提出了一種新穎的通用模型,即Video-3D LLM,用於3D場景理解。通過將3D場景視為動態視頻,並將3D位置編碼納入這些表示中,我們的Video-3D LLM能夠更準確地將視頻表示與現實世界的空間背景相吻合。此外,我們實施了最大覆蓋抽樣技術,以優化計算成本與性能效率之間的平衡。大量實驗表明,我們的模型在多個3D場景理解基準測試中取得了最先進的性能,包括ScanRefer、Multi3DRefer、Scan2Cap、ScanQA和SQA3D。
目前對LLM的數學技能評估有限,因為現有的基準要麼規模較小,主要關注初中和高中問題,要麼在主題上缺乏多樣性。此外,在任務中包含視覺元素的探討仍然相對不足。 為了解決這些缺口,我們引入了U-MATH,這是一個新穎的基準,包含了1,100個未發表的大學級開放性問題,來源於教材。它在六個核心科目之間平衡,其中有20%的多模式問題。鑒於U-MATH問題的開放性,我們使用LLM來判斷生成解決方案的正確性。為此,我們發布了mu-MATH,這是一個用於評估LLM在判斷解決方案能力的數據集。 對通用領域、數學特定和多模式LLM的評估突顯了U-MATH所帶來的挑戰。我們的研究發現,LLM在基於文本的任務上僅達到63%的最高準確率,視覺問題的準確率甚至更低,只有45%。對LLM來說,解決方案評估是具有挑戰性的,最佳的LLM評審在mu-MATH上的F1分數為80%。
利用大型語言模型進行合成數據生成是擴展自然數據在幾乎無限範圍任務上的一種有前途的範式。鑒於這種多樣性,合成數據生成算法之間的直接比較很少,這使得理解改進來源和存在的瓶頸變得困難。我們建議通過每個算法生成的合成數據的質量、多樣性和複雜性來評估算法。我們選擇這三個特徵是因為它們在開放式過程中的重要性以及它們對下游模型能力的影響。我們發現質量對於分佈內模型泛化至關重要,多樣性對於分佈外泛化至關重要,而複雜性對兩者都有益。此外,我們強調在訓練數據中存在質量-多樣性的權衡以及對模型性能的下游影響。然後,我們檢驗合成數據流程中各個組件對每個數據特徵的影響。這種檢驗使我們能夠通過它們利用的組件以及對數據QDC組成產生的影響來對合成數據生成算法進行分類和比較。這種分析延伸到對在合成數據中平衡QDC對於有效的強化學習和自我改進算法的重要性的討論。類似於訓練數據中的QD權衡,通常存在模型輸出質量和輸出多樣性之間的權衡,這影響了合成數據的組成。我們觀察到目前許多模型僅被評估和優化為輸出質量,從而限制了輸出多樣性和自我改進的潛力。我們認為平衡這些權衡對未來自我改進算法的發展至關重要,並強調了一些在這方面取得進展的工作。
最近,從大規模預訓練擴散模型中提取的內部特徵已被證明是一種強大的語義描述符,適用於各種下游任務。使用這些特徵的作品通常需要在將圖像通過模型之前向圖像添加噪音,以獲得語義特徵,因為當圖像幾乎沒有噪音時,模型並不提供最有用的特徵。我們表明,這種噪音對這些特徵的有用性有著至關重要的影響,無法通過與不同隨機噪音進行集成來補救。我們通過引入一種輕量級的無監督微調方法來解決這個問題,使得擴散主幹能夠提供高質量、無噪音的語義特徵。我們展示這些特徵在各種提取設置和下游任務中輕鬆地優於以往的擴散特徵,甚至在成本的一小部分下,提供比基於集成方法更好的性能。
融合異質開源LLM時,考慮到不同架構和大小的潛在優勢整合,現有的融合方法面臨著重大挑戰,如詞彙對齊和合併分佈矩陣。這些程序不僅複雜,還容易引入噪音和錯誤。本文提出一種隱式融合方法,稱為加權獎勵偏好優化(WRPO),該方法利用源LLM和目標LLM之間的偏好優化來有效地轉移它們的能力。WRPO消除了詞彙對齊和矩陣融合的需要,並且可以有效擴展以適應各種LLM。為了解決源LLM和目標LLM之間的分佈偏差,WRPO引入了一種漸進適應策略,逐漸將對目標LLM的依賴轉移到源LLM的優選示例上。在MT-Bench、AlpacaEval-2和Arena-Hard基準上進行的大量實驗表明,WRPO始終優於現有的知識融合方法和各種微調基準。當應用於目標模型LLaMA3-8B-Instruct時,WRPO在AlpacaEval-2上以55.9%的長度控制勝率擊敗了GPT-4-Preview-1106,在Arena-Hard上以46.2%的勝率擊敗了GPT-4-0314。我們的代碼可在https://github.com/SLIT-AI/WRPO找到。
文字在影片生成中扮演關鍵的控制訊號角色,這是由於其敘事性質。為了將文字描述轉換為影片片段,目前的影片擴散模型借用了來自文字編碼器的特徵,但在有限的文字理解方面遇到困難。大型語言模型(LLMs)最近的成功展示了僅解碼器變壓器的威力,為文字到影片(T2V)生成提供了三個明顯的好處,即優越的可擴展性帶來的精確文字理解,通過下一個標記預測實現的超越輸入文字的想像力,以及通過指導調整來優先考慮用戶興趣的靈活性。然而,由於兩種不同的文字建模範式產生的特徵分佈差距,阻礙了LLMs在已建立的T2V模型中的直接應用。本研究通過Mimir來應對這一挑戰,這是一個端對端的訓練框架,具有精心設計的標記融合器,以協調來自文字編碼器和LLMs的輸出。這種設計使得T2V模型能夠充分利用所學的影片先驗知識,同時又能充分利用LLMs的與文字相關的能力。廣泛的定量和定性結果顯示了Mimir在生成具有出色文字理解的高質量影片方面的有效性,特別是在處理短字幕和管理變換運動時。專案頁面:https://lucaria-academy.github.io/Mimir/
隨著指導調整技術的進步,大型多模型(LMMs)已取得重大突破。然而,儘管現有模型能夠在整體層面上理解圖像和視頻,但在需要更微妙理解和對齊的實例級理解方面仍然存在困難。實例級理解至關重要,因為它專注於我們最感興趣的具體元素。令人振奮的是,現有研究發現,當提供明確的視覺提示時,最先進的LMMs表現出強大的實例理解能力。受此激勵,我們引入了一個由GPT-4o協助的自動標註流程,通過明確的視覺提示來從圖像和視頻中提取實例級信息,以進行實例引導。在這個流程的基礎上,我們提出了Inst-IT,一個通過明確的視覺提示指導調整來增強LMMs在實例理解方面的解決方案。Inst-IT包括一個用於診斷多模實例級理解的基準、一個大規模指導調整數據集,以及一個連續的指導調整訓練範式,以有效增強現有LMMs的時空實例理解能力。實驗結果顯示,在Inst-IT的提升下,我們的模型不僅在Inst-IT基準上取得優異表現,還在各種通用圖像和視頻理解基準上顯示出顯著改進。這突顯了我們的數據集不僅提升了實例級理解,還增強了通用圖像和視頻理解的整體能力。
我們介紹了 LumiNet,一種新穎的架構,利用生成模型和潛在內在表示來進行有效的燈光轉移。給定一個源影像和一個目標照明影像,LumiNet 合成源場景的重新照明版本,捕捉目標照明。我們的方法做出了兩個關鍵貢獻:從基於 StyleGAN 的重新照明模型中提取數據的策略用於我們的訓練,以及一個修改的基於擴散的 ControlNet,處理來自源影像的潛在內在特性和來自目標影像的潛在外在特性。我們通過一個學習的適配器(MLP)進一步改進照明轉移,通過交叉注意力和微調注入目標的潛在外在特性。 與傳統的 ControlNet 不同,後者從單一場景生成帶有條件地圖的影像,LumiNet 從兩個不同影像處理潛在表示,保留源影像的幾何和反照率,同時從目標轉移照明特性。實驗表明,我們的方法成功地在具有不同空間佈局和材料的場景之間轉移複雜的照明現象,包括高光和間接照明,僅使用影像作為輸入,在具有挑戰性的室內場景上優於現有方法。