每日精選AI研究論文及翻譯
視覺語言模型(VLMs)領域以圖像和文本作為輸入並輸出文本的模型正在快速發展,對於開發流程中的數據、架構和訓練方法等幾個關鍵方面尚未達成共識。本文可被視為建立 VLM 的教程。我們首先提供了當前最先進方法的全面概述,突出每種方法的優勢和劣勢,解決該領域的主要挑戰,並提出對未充分探索領域的有前景的研究方向。然後,我們逐步介紹建立 Idefics3-8B 的實際步驟,這是一個強大的 VLM,明顯優於其前身 Idefics2-8B,同時在僅使用開放數據集並使用簡單流程的情況下高效訓練。這些步驟包括創建 Docmatix,這是一個用於提高文檔理解能力的數據集,比以前可用的數據集大 240 倍。我們釋出了該模型以及為其訓練而創建的數據集。
最近,對於多模態大型語言模型(MLLMs)的全面評估在研究界引起廣泛關注。然而,我們觀察到現有的基準測試存在幾個常見障礙,使得衡量模型在現實世界中面臨的重大挑戰變得困難,包括:1)小數據規模導致性能變異很大;2)依賴基於模型的標註導致數據質量受限;3)任務難度不足,尤其是由於圖像分辨率有限而引起。為了應對這些問題,我們引入了MME-RealWorld。具體而言,我們從公共數據集和互聯網上收集了超過30萬張圖像,篩選出13,366張高質量圖像進行標註。這涉及專業25名標註者和7名MLLMs專家的努力,共貢獻了29,429個問答對,涵蓋了5個現實世界情境中的43個子任務,即使對於人類來說也極具挑戰性。據我們所知,MME-RealWorld是迄今為止最大的手動標註基準測試,具有最高的分辨率並針對現實應用進行了有針對性的關注。我們進一步進行了一項全面評估,涉及28個知名的MLLMs,如GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet。我們的結果顯示,即使是最先進的模型也在我們的基準測試中遇到困難,其中沒有一個達到60%的準確率。感知高分辨率圖像和理解複雜的現實情境的挑戰仍然是亟待解決的問題。數據和評估代碼已發布在https://mme-realworld.github.io/。
在計算機視覺和圖形學中,3D沉浸式場景生成是一項具有挑戰性但至關重要的任務。理想的虛擬3D場景應該1)展現全方位視角一致性,並且2)允許在複雜場景層次結構中進行自由探索。現有方法要麼依賴通過修補逐步擴展場景,要麼使用全景表示法來呈現大視場場景環境。然而,在擴展過程中生成的場景容易出現語義漂移,並且無法處理場景層次結構中的遮擋。為應對這些挑戰,我們提出LayerPano3D,這是一個從單個文本提示生成全視角、可探索的全景3D場景的新框架。我們的關鍵洞察是將參考的2D全景圖分解為不同深度層級的多個層,每個層通過擴散先驗從參考視角中顯示未見空間。LayerPano3D包括多個專用設計:1)我們引入了一個新的文本引導錨點視圖合成管道,用於高質量、一致性全景生成。2)我們開創了分層3D全景作為底層表示,以管理複雜的場景層次結構,並將其提升為3D高斯函數,以噴灑詳細的360度全方位場景,並實現無限制的觀看路徑。大量實驗表明,我們的框架在全視角一致性和沉浸式探索體驗方面生成了最先進的3D全景場景。我們相信LayerPano3D有望推動3D全景場景創建,並具有眾多應用潛力。
在流行的Transformer架構中,自注意機制中的二次計算複雜度對訓練和推斷提出了重大挑戰,特別是在效率和記憶需求方面。為了應對這些挑戰,本文介紹了一種新的快速計算方法,用於多層Transformer模型中的梯度計算。我們的方法使得幾乎可以在線性時間n^{1+o(1)}內計算整個多層Transformer模型的梯度,其中n為輸入序列的長度。這一突破顯著降低了與傳統二次時間複雜度相關的計算瓶頸。我們的理論適用於任何損失函數,並在整個模型範圍內保持有界的近似誤差。此外,我們的分析也適用於包含許多實用子模塊的多層Transformer模型,例如殘差連接、自注意力和多頭注意力。通過提高大型語言模型中梯度計算的效率,我們希望我們的工作將基於我們的理論結果促進更有效的長文本語言模型的訓練和部署。
最近,一系列節省記憶體的低秩梯度下降(LLM)訓練算法廣受歡迎。這些方法利用梯度的低秩結構,將優化器狀態投影到一個子空間中,使用奇異值分解(SVD)找到的投影矩陣。然而,這些算法的收斂高度依賴於其投影矩陣的更新規則。在這項工作中,我們為投影矩陣的任意更新規則提供了首個收斂保證。這個保證通常適用於可以用哈密頓下降分析的優化器,包括最常見的優化器,如LION、Adam等。受我們對理論的理解啟發,我們提出了在沒有SVD的情況下更新投影矩陣的新型子空間下降優化器——在線子空間下降。在線子空間下降不是通過更新特徵向量來更新投影矩陣,而是通過在線主成分分析(PCA)來更新投影矩陣。在線子空間下降靈活且僅對訓練帶來最小的額外開銷。我們展示,在C4數據集上對包含從60M到7B參數的LLaMA模型進行預訓練的任務中,相較於最先進的低秩訓練方法,在不同設置下,以及縮小與全秩基準之間差距, 在線子空間下降實現了更低的困惑度和更好的下游任務性能。
以語音驅動的3D動作合成旨在根據人類語音創建逼真的動畫,潛在應用包括虛擬現實、遊戲和電影製作。現有方法僅依賴語音音頻進行動作生成,導致合成結果不準確且缺乏靈活性。為解決此問題,我們引入了一種新穎的文本引導的3D人體動作合成方法,稱為T3M。與傳統方法不同,T3M通過文本輸入實現對動作合成的精確控制,提高了多樣性和用戶定製程度。實驗結果表明,T3M在定量指標和定性評估方面均能明顯優於最先進的方法。我們已在https://github.com/Gloria2tt/T3M.git上公開發布了我們的代碼。
定制視頻生成旨在根據文本提示和主題參考圖像生成高質量視頻。然而,由於它僅在靜態圖像上進行訓練,主題學習的微調過程會破壞視頻擴散模型(VDMs)結合概念並生成動作的能力。為了恢復這些能力,一些方法使用額外的與提示相似的視頻來進行微調或引導模型。這需要頻繁更改引導視頻,甚至在生成不同動作時重新調整模型,這對用戶來說非常不方便。在本文中,我們提出了CustomCrafter,一個新穎的框架,它在不使用額外視頻和微調的情況下保留了模型的動作生成和概念組合能力。為了保留概念組合能力,我們設計了一個即插即用模塊來更新VDMs中的少量參數,增強模型捕捉外觀細節和概念組合能力以應用於新主題。對於動作生成,我們觀察到VDMs傾向於在去噪的早期階段恢復視頻的運動,而在後期則專注於恢復主題細節。因此,我們提出了動態加權視頻採樣策略。利用我們主題學習模塊的可插拔性,我們減少了該模塊對動作生成的早期階段的影響,保留了VDMs生成動作的能力。在去噪的後期階段,我們恢復該模塊以修復指定主題的外觀細節,從而確保主題外觀的保真度。實驗結果表明,我們的方法相比之前的方法有顯著改善。
高解析度視覺語言模型(VLMs)已被廣泛應用於多模式任務中,通過保留詳細的圖像信息來提高準確性。然而,這些模型通常由於編碼輸入圖像的多個分區而生成過多的視覺標記。在資源受限的環境中,特別是在擁有通用 GPU 的情況下,處理這些過多的視覺標記具有挑戰性。為了支持高解析度圖像並滿足資源限制,我們提出了高解析度早期丟棄(HiRED),這是一種在大型語言模型(LLM)階段之前在固定標記預算內運作的標記丟棄方案。HiRED可以與現有的高解析度 VLMs 輕鬆集成,因為它無需額外的訓練,同時仍保持卓越的準確性。我們在初始層中策略性地使用視覺編碼器的注意力來評估每個圖像分區的視覺內容,並相應地分配標記預算。然後,使用最終層中的注意力,我們從分配的預算中選擇每個分區中最重要的視覺標記,並丟棄其餘的部分。實驗結果顯示,當應用於 NVIDIA TESLA P40 GPU 上的 LLaVA-Next-7B 時,HiRED 在 20% 的標記預算下,將標記生成吞吐量提高了 4.7 倍,將首個標記生成延遲時間減少了 15 秒,並為單次推理節省了 2.3 GB 的 GPU 記憶體。
聯邦學習(FL)為分佈式設備間協作機器學習提供了一種有前途的方法。然而,由於構建可靠的通信架構的複雜性以及對機器學習和網絡編程專業知識的需求,其應用受到了阻礙。本文提出了一個全面的解決方案,簡化了FL任務的協調,同時整合了基於意圖的自動化。我們開發了一個用戶友好的Web應用程序,支持聯邦平均(FedAvg)算法,使用戶可以通過直觀的界面配置參數。後端解決方案有效地管理參數服務器與邊緣節點之間的通信。我們還實現了模型壓縮和排程算法,以優化FL的性能。此外,我們利用在定制數據集上訓練的微調語言模型(LLM)探索了FL中的基於意圖的自動化,使用戶可以使用高級提示執行FL任務。我們觀察到,基於LLM的自動化解決方案在測試準確性方面與標準基於Web的解決方案相當,同時減少了高達64%的傳輸字節和高達46%的CPU時間用於FL任務。此外,我們利用LLM進行神經架構搜索(NAS)和超參數優化(HPO)以提高性能。我們觀察到,通過使用這種方法,測試準確性可以提高10-20%用於執行的FL任務。
3D 高斯點陣化(3DGS)通過使用眾多小高斯函數實現快速且高質量的渲染,但這導致了顯著的內存消耗。對大量高斯函數的依賴限制了基於 3DGS 的模型在低成本設備上的應用,因為內存限制。然而,簡單地減少高斯函數的數量以適應內存容量較小的設備,會導致較低的質量,無法與高端硬件實現的質量相比。為解決這種缺乏可擴展性的問題,我們提出將靈活細節層級(FLoD)集成到 3DGS 中,以允許根據硬件能力在不同細節層級上呈現場景。現有的具有細節層級的 3DGS 主要關注詳細的重建,而我們的方法則使用少量高斯函數進行重建,以降低內存需求,並使用更多高斯函數以獲得更多細節。實驗證明了我們的各種渲染選項在渲染質量和內存使用之間的權衡,從而實現了在不同內存限制下的實時渲染。此外,我們展示了我們的方法對不同的 3DGS 框架具有泛化能力,表明其潛力可以整合到未來最先進的發展中。項目頁面:https://3dgs-flod.github.io/flod.github.io/
隨著大型語言模型(LLMs)的進步,一個主要的應用案例是以純英語查詢數據庫,將用戶問題翻譯為可執行的數據庫查詢,這方面取得了顯著進展。然而,現實世界的數據集往往包含眾多屬性和複雜值,使得LLMs準確識別自然語言查詢中相關列或值變得複雜。傳統方法無法充分傳達數據集的規模和複雜性給LLM。為應對這些挑戰,我們提出了一個利用輸入表格上的全文搜索(FTS)的新框架。這種方法不僅能夠精確檢測特定值和列,還能縮小語言模型的搜索範圍,從而提高查詢準確性。此外,它支持自定義自動完成功能,根據表格中的數據提供查詢建議。這種整合顯著改進了用戶與複雜數據集之間的互動,為目前表格查詢功能所面臨的限制提供了一個複雜的解決方案。這項工作附帶了一個適用於Mac和Windows平台的應用程序,讀者可以在自己的數據上試用。
條件圖像生成有助於實現無縫編輯和創建逼真圖像。然而,在噪聲或超出分佈範圍(OoD)的圖像上進行條件生成存在顯著挑戰,特別是在平衡對輸入的忠實度和輸出的逼真度方面。我們提出了自信普通微分編輯(CODE),這是一種新穎的圖像合成方法,能夠有效處理OoD引導圖像。CODE利用擴散模型作為生成先驗,通過沿著概率流動普通微分方程(ODE)軌跡的基於分數的更新來增強圖像。該方法不需要任務特定的訓練,也不需要手工設計的模塊,也不對影響條件圖像的損壞做出任何假設。我們的方法與任何擴散模型兼容。CODE處於條件圖像生成和盲目圖像恢復的交集,以完全盲目的方式運行,僅依賴預先訓練的生成模型。我們的方法提出了一種盲目恢復的替代方法:代替基於對底層損壞的假設來定位特定的真實圖像,CODE旨在增加輸入圖像的可能性,同時保持忠實度。這導致在輸入周圍最可能的分佈內圖像。我們的貢獻有兩個方面。首先,CODE基於ODE引入了一種新穎的編輯方法,相較於基於SDE的對應方法,提供了更好的控制、逼真度和忠實度。其次,我們引入了基於置信區間的剪切方法,通過允許CODE忽略某些像素或信息,從而增強了盲目恢復過程的效果。實驗結果證明了CODE在現有方法中的有效性,特別是在涉及嚴重退化或OoD輸入的情況下。