每日精選AI研究論文及翻譯
我們介紹了 InternVL 2.5,這是一個先進的多模式大型語言模型(MLLM)系列,建立在 InternVL 2.0 的基礎上,保留其核心模型架構,同時引入了在訓練和測試策略以及數據質量方面的重大增強。在這項工作中,我們深入探討模型擴展和性能之間的關係,系統地探索視覺編碼器、語言模型、數據集大小和測試時間配置的性能趨勢。通過對廣泛範圍的基準測試進行全面評估,包括多學科推理、文件理解、多圖像/視頻理解、現實世界理解、多模式幻覺檢測、視覺基礎、多語言能力和純語言處理,InternVL 2.5 展現出競爭力強勁的性能,與領先的商業模型如 GPT-4o 和 Claude-3.5-Sonnet 不相上下。值得注意的是,我們的模型是第一個開源 MLLMs,在 MMMU 基準測試中超過 70%,通過「思維鏈」(CoT)推理實現了 3.7 個百分點的改進,展示了在測試時間擴展方面的強大潛力。我們希望這個模型通過為開源社區設定開發和應用多模式人工智慧系統的新標準而做出貢獻。HuggingFace 演示請參見 https://huggingface.co/spaces/OpenGVLab/InternVL
本技術報告介紹了由LG AI Research開發並釋出的EXAONE 3.5指令調整語言模型。EXAONE 3.5語言模型提供三種配置:32B、7.8B和2.4B。這些模型具有幾項突出的功能:1)在現實場景中具有卓越的指令跟隨能力,在七個基準測試中取得最高分,2)出色的長文本理解能力,在四個基準測試中表現最佳,以及3)與同等大小的最先進開放模型相比,在九個通用基準測試中取得競爭性結果。EXAONE 3.5語言模型對於任何人進行研究目的都是開放的,可從https://huggingface.co/LGAI-EXAONE 下載。如需商業用途,請聯繫LG AI Research的官方聯絡點:[email protected]。
最近在文本到視頻(T2V)生成模型方面取得了顯著進展。然而,這些模型在將合成視頻與人類偏好(例如,準確反映文本描述)對齊方面仍然不足,這特別難以解決,因為人類偏好本質上是主觀的,難以形式化為客觀函數。因此,本文提出了LiFT,一種利用人類反饋進行T2V模型對齊的新型微調方法。具體而言,我們首先構建了一個人類評分標註數據集LiFT-HRA,其中包含約10k個人類標註,每個標註包括一個分數及其相應的理由。基於此,我們訓練了一個獎勵模型LiFT-Critic,有效地學習獎勵函數,作為人類判斷的代理,衡量給定視頻與人類期望之間的對齊情況。最後,我們利用學習到的獎勵函數通過最大化獎勵加權概率來對齊T2V模型。作為案例研究,我們將我們的流程應用於CogVideoX-2B,顯示微調後的模型在所有16個指標上均優於CogVideoX-5B,突顯了人類反饋在改善合成視頻的對齊和質量方面的潛力。
開源多模式大型語言模型(MLLMs)在各種多模式任務中展現了顯著的潛力。然而,它們的推理能力仍受現有指導微調資料集的限制,這些資料集主要是從學術資料集(如VQA、AI2D和ChartQA)重新利用而來。這些資料集針對簡單的任務,僅提供詞語級別的答案,沒有任何中間的推理依據。為應對這些挑戰,我們提出了一種可擴展且具成本效益的方法,用於構建一個大規模多模式指導微調資料集,其中包含豐富的中間推理依據,旨在引發CoT推理。僅使用開源模型,我們創建了一個包含1200萬指導-回應對的資料集,以涵蓋各種具有詳細和忠實推理依據的任務。實驗表明,在這個資料集上訓練MLLMs顯著提升了推理能力,在MathVerse(+8.1%)、MMMU-Pro(+7%)和MuirBench(+13.3%)等基準測試中實現了最先進的性能。此外,該模型在非推理性基準測試中的表現也有高達4%的顯著改善。消融研究進一步凸顯了資料集構建過程中重要組件(如重寫和自我過濾)的重要性。
最近在文字引導的圖像編輯方面取得了重大進展,使用戶可以通過簡單的文字輸入進行圖像編輯,利用多步驟擴散式文本到圖像模型的廣泛先驗知識。然而,這些方法通常無法滿足實際應用和設備應用所需的速度要求,這是由於涉及昂貴的多步驟反演和採樣過程所導致的。為了應對這一問題,我們引入了SwiftEdit,這是一個簡單而高效的編輯工具,實現了即時的文字引導圖像編輯(在0.23秒內)。SwiftEdit的進步在於其兩個新穎貢獻:一個一步驟反演框架,通過反演實現一步驟圖像重建,以及一個帶有我們提出的注意力重定機制的遮罩引導編輯技術,以執行局部圖像編輯。通過大量實驗來展示SwiftEdit的有效性和效率。特別是,SwiftEdit實現了即時的文字引導圖像編輯,比以前的多步驟方法要快得多(至少快50倍),同時在編輯結果方面保持了競爭力。我們的項目頁面位於:https://swift-edit.github.io/
大型語言模型(LLMs)在訓練過程中以AdamW優化器特別佔用記憶體,這尤其顯著。這種記憶體負擔需要使用更多或更高階的GPU,或是降低批次大小,限制了訓練的擴展性和吞吐量。為了應對這個問題,提出了各種節省記憶體的優化器來降低優化器的記憶體使用量。然而,它們面臨著關鍵挑戰:(i)依賴昂貴的奇異值分解(SVD)操作;(ii)與AdamW相比存在顯著的性能折衷;以及(iii)仍然存在相當大的優化器記憶體開銷以維持競爭性能。 在這項工作中,我們發現可以有效地將AdamW的學習率適應規則粗化為結構化學習率更新。基於這一洞察,我們提出了用於節省記憶體的LLM優化的近似梯度縮放(APOLLO),它使用基於純隨機投影的輔助低秩優化器狀態來近似學習率縮放。這種結構化學習率更新規則使APOLLO對進一步減少記憶體具有很高的容忍度,同時提供可比擬的預訓練性能。即使是其秩為1的變體APOLLO-Mini,也比使用SGD級別記憶成本的AdamW實現了優越的預訓練性能。 大量實驗表明,APOLLO系列的性能與AdamW相當或更好,同時通過幾乎消除AdamW的優化狀態實現了更大的記憶體節省。這些節省帶來了顯著的系統級好處:(1)增強吞吐量:在8xA100-80GB設置中,支持4倍更大批次大小,相較於AdamW實現3倍的吞吐量。 (2)改進模型擴展性:在A100-80GB GPU上使用naive DDP預訓練LLaMA-13B,無需系統級優化。 (3)友好的低階GPU預訓練:在單個GPU上使用不到12 GB記憶體進行LLaMA-7B的預訓練,並進行權重量化。
最近在大型語言模型上進行的預訓練,通過對廣泛語料庫的預訓練,在各種自然語言處理任務中取得了顯著成功,而只需進行最少的微調。這種成功為機器人技術帶來了新的希望,長期以來,機器人技術一直受制於高昂的動作標記數據成本。我們提出一個問題:鑒於豐富的包含互動相關知識的視頻數據作為豐富的“語料庫”,是否可以有效應用類似的生成式預訓練方法來增強機器人學習?關鍵挑戰在於確定一種對機器人操作任務有益的自回歸預訓練的有效表示。受人類通過觀察動態環境學習新技能的方式啟發,我們提出,有效的機器人學習應該強調與低級動作密切相關的運動相關知識,並且與硬件無關,有助於將學習到的運動轉移到實際機器人動作中。為此,我們引入了Moto,通過潛在運動標記生成器將視頻內容轉換為潛在運動標記序列,以無監督的方式從視頻中學習運動的連接“語言”。我們通過運動標記自回歸對Moto-GPT進行預訓練,使其能夠捕捉多樣的視覺運動知識。在預訓練之後,Moto-GPT展示了產生語義可解釋的運動標記、預測合理的運動軌跡以及通過輸出概率評估軌跡合理性的潛力。為了將學習到的運動先驗知識轉移到真實機器人動作中,我們實施了一種協同微調策略,無縫地橋接潛在運動標記預測和真實機器人控制。大量實驗表明,微調後的Moto-GPT在機器人操作基準測試中表現出優越的穩健性和效率,突顯了它在從視頻數據轉移到下游視覺操作任務中的有效性。
近年來,文字到影片生成模型取得了顯著進展。然而,它們仍然在基於組合式文本提示生成複雜動態場景方面遇到困難,例如多個物體的屬性綁定、不同物體的時間動態以及物體之間的互動。我們的主要動機是將複雜任務分解為更簡單的任務,每個任務由一個角色專門化的MLLM代理處理。多個代理可以共同合作,以實現複雜目標的集體智能。我們提出了GenMAC,一個迭代的多代理框架,可以實現組合式文字到影片生成。合作工作流程包括三個階段:設計、生成和重新設計,其中在生成和重新設計階段之間進行迭代循環,逐步驗證和完善生成的影片。重新設計階段是最具挑戰性的階段,旨在驗證生成的影片,提出修正建議,並重新設計下一輪生成的文本提示、逐幀佈局和引導比例。為了避免單個MLLM代理的幻覺,我們將這個階段分解為四個依次執行的基於MLLM的代理:驗證代理、建議代理、修正代理和輸出結構化代理。此外,為了應對各種組合式文字到影片生成的情境,我們設計了一個自我路由機制,從一組針對不同情境專門化的修正代理中自適應地選擇適當的修正代理。大量實驗證明了GenMAC的有效性,在組合式文字到影片生成方面實現了最先進的性能。
多模式大型語言模型(MLLMs)能有多好地理解複合圖像呢?複合圖像(CIs)是合成視覺圖像,通過合併多個視覺元素(如圖表、海報或截圖)而創建,而非直接由相機拍攝。儘管CIs在現實應用中很常見,但最近MLLM的發展主要集中在解釋自然圖像(NIs)。我們的研究顯示,目前的MLLM在準確理解CIs方面面臨著重大挑戰,通常難以提取信息或基於這些圖像進行複雜推理。我們發現,現有的CIs訓練數據主要針對問答任務格式化(例如在ChartQA和ScienceQA等數據集中),而對於堅固的視覺語言對齊至關重要的高質量圖像說明數據集僅適用於NIs。為彌合這一差距,我們引入了複合說明(CompCap),這是一個靈活的框架,利用大型語言模型(LLMs)和自動化工具來合成具有準確詳細說明的CIs。利用CompCap,我們編纂了CompCap-118K,其中包含六種CIs類型的118K圖像說明對。我們通過監督微調三種尺寸的MLLMs:xGen-MM-inst.-4B和LLaVA-NeXT-Vicuna-7B/13B,驗證了CompCap-118K的有效性。實證結果表明,CompCap-118K顯著增強了MLLM對CIs的理解,分別在十一個基準測試中平均增益為1.7%、2.0%和2.9%。
3D高斯點陣在大規模場景重建中取得顯著成功,但由於高訓練記憶體消耗和存儲開銷,仍存在挑戰。整合隱式和顯式特徵的混合表示提供了一種減輕這些限制的方法。然而,在並行塊訓練中應用時,會出現兩個關鍵問題,因為當獨立訓練每個塊時,由於數據多樣性減少,重建準確性會下降,並且並行訓練會限制分割塊的數量與可用GPU數量相等。為了應對這些問題,我們提出了Momentum-GS,一種利用基於動量的自蒸餾來促進塊之間一致性和準確性的新方法,同時將塊的數量與物理GPU數量解耦。我們的方法維護一個使用動量更新的教師高斯解碼器,在訓練過程中確保穩定的參考。這個教師以自蒸餾方式為每個塊提供全局引導,促進重建中的空間一致性。為了進一步確保塊之間的一致性,我們引入塊加權,根據其重建準確性動態調整每個塊的權重。在大規模場景上進行的大量實驗表明,我們的方法始終優於現有技術,相對於CityGaussian,LPIPS提高了12.8%,並且使用更少的分割塊,建立了新的技術水平。項目頁面:https://jixuan-fan.github.io/Momentum-GS_Page/
多模式人工智慧具有顯著增強文件理解任務的潛力,例如處理收據、理解工作流程、從文件中提取數據和總結報告。同時,需要生成長結構輸出的代碼生成任務也可以通過多模式進行增強。儘管如此,由於訓練數據的訪問受限以及限制性許可,它們在商業應用中的使用往往受到限制,這阻礙了開放訪問。為了解決這些限制,我們引入了BigDocs-7.5M,這是一個高質量的、開放訪問的數據集,包括了30個任務中的750萬個多模式文件。我們使用高效的數據策劃過程來確保我們的數據是高質量且許可權開放的。我們的過程通過篩選規則、可追溯的元數據和仔細的內容分析來強調問責、責任和透明度。此外,我們引入了BigDocs-Bench,這是一個基準套件,包含了10個新任務,我們創建了反映現實用例的數據集,涉及對圖形用戶界面(GUI)進行推理和從圖像生成代碼。我們的實驗表明,使用BigDocs-Bench進行訓練可以將文件推理和結構輸出任務的平均性能提高高達25.8%,超過了閉源GPT-4o,如Screenshot2HTML或Image2Latex生成。最後,人類評估表明,從在BigDocs上訓練的模型輸出更受歡迎,而不是GPT-4o。這表明BigDocs可以幫助學術界和開源社區利用和改進人工智慧工具,以增強多模式功能和文件推理。該項目托管在https://bigdocs.github.io。
現實世界的影片由一系列事件組成。使用現有的依賴單一段文字作為輸入的影片生成器,要精確控制這些事件序列是不可行的。當要求生成使用單一提示描述的多個事件時,這些方法通常會忽略某些事件或未能按正確順序排列它們。為了解決這個限制,我們提出了MinT,一個具有時間控制的多事件影片生成器。我們的關鍵洞察是將每個事件綁定到生成的影片中的特定時期,這使模型能夠一次專注於一個事件。為了實現事件標題和影片標記之間的時間感知交互作用,我們設計了一種基於時間的位置編碼方法,名為ReRoPE。這種編碼有助於引導交叉注意力操作。通過在具有時間基礎數據的預訓練影片擴散變壓器上進行微調,我們的方法生成具有平滑連接事件的連貫影片。在文獻中首次,我們的模型提供了對生成影片中事件時間的控制。廣泛的實驗表明,MinT在性能上遠遠優於現有的開源模型。
本文介紹了一種名為PanoDreamer的新方法,用於從單張輸入圖像生成一個連貫的360度3D場景。與現有的按順序生成場景的方法不同,我們將問題定義為單圖全景和深度估計。一旦獲得了連貫的全景圖像及其對應的深度,就可以通過修補小區域的遮擋部分並將其投影到3D空間中來重建場景。我們的主要貢獻在於將單圖全景和深度估計定義為兩個優化任務,並引入交替最小化策略來有效解決它們的目標。我們證明了我們的方法在單圖360度場景重建方面在一致性和整體質量方面優於現有技術。
由於空間結構的固有複雜性和無紋理區域的普遍存在,室內場景的重建仍然具有挑戰性。最近在3D高斯擴散方面的進展改善了新視角合成的加速處理,但在表面重建方面尚未提供可比擬的性能。本文介紹了一種名為2DGS-Room的新方法,利用2D高斯擴散來實現高保真度的室內場景重建。具體來說,我們採用種子引導機制來控制2D高斯分佈,通過自適應生長和修剪機制動態優化種子點的密度。為了進一步提高幾何精度,我們結合單眼深度和法向先驗來分別為細節和無紋理區域提供約束。此外,採用多視角一致性約束來減輕藝術品並進一步增強重建質量。在ScanNet和ScanNet++數據集上進行的大量實驗表明,我們的方法在室內場景重建方面實現了最先進的性能。
大型語言模型(LLMs)已使對話成為人機互動的核心模式之一,導致大量對話日誌的累積,並增加了對對話生成的需求。對話生命週期從序幕、通話到結語,包含各種元素。儘管存在許多與對話相關的研究,但缺乏包含全面對話元素的基準,阻礙了精確建模和系統評估。為彌補這一差距,我們引入了一項創新的研究任務——對話元素建模,包括元素意識和對話代理互動,並提出了一個新穎的基準 DEMO,旨在進行全面的對話建模和評估。受到模仿學習的啟發,我們進一步建立了一個代理,具有模擬對話元素的熟練能力,基於 DEMO 基準。廣泛的實驗表明,現有的 LLMs 仍具有相當大的增強潛力,而我們的 DEMO 代理在領域內和領域外任務中均表現優異。
獎勵仍然是指定強化學習任務的一種難以解釋的方式,因為人類通常無法預測任何給定獎勵函數的最佳行為,導致獎勵設計不佳和獎勵入侵。語言提供了一種吸引人的方式來向代理傳達意圖並繞過獎勵設計,但先前的努力受制於昂貴且不可擴展的標註工作。在這項工作中,我們提出了一種完全無監督的方法,以零樣本方式將語言指令與策略進行基準。我們提出了一種解決方案,採用想像、投影和模仿的形式:代理想像與任務的語言描述相對應的觀察序列,將想像的序列投影到我們的目標領域,並將其基準為一個策略。視頻語言模型使我們能夠想像利用從互聯網規模的視頻文本映射中學到的任務知識的任務描述。挑戰在於將這些生成物基準為一個策略。在這項工作中,我們展示了通過首先將想像的序列基準於無監督RL代理的真實觀察結果,並使用一個閉合形式的模仿學習解決方案,使RL代理能夠模仿基準觀察結果,我們可以實現零樣本語言到行為策略。我們的方法RLZero是我們所知道的第一個展示零樣本語言到行為生成能力的方法,在模擬領域的各種任務上沒有任何監督。我們進一步展示了RLZero還可以從來自YouTube等跨體驗視頻中零樣本生成策略。