每日精選AI研究論文及翻譯
視覺編碼器通常會生成大量的視覺標記,提供資訊豐富的表徵,但同時也大幅增加了計算需求。這引發了一個問題:所有生成的標記是否都具有同等價值,或者是否可以捨棄其中一部分以降低計算成本而不影響品質。本文中,我們提出了一種基於「較不重要的特徵可從更重要的特徵中重建」這一概念的新方法來判定特徵效用。我們通過將自編碼器與Gumbel-Softmax選擇機制相結合來實現這一理念,該機制能夠識別並僅保留最具資訊量的視覺標記。為驗證我們的方法,我們比較了LLaVA-NeXT模型在使用我們方法選取的特徵與隨機選取特徵時的表現。結果發現,在基於OCR的任務中,超過50%的視覺上下文可以被移除而僅帶來極小的性能損失,而隨機捨棄相同比例的特徵則會顯著影響模型能力。此外,在通用領域任務中,即使僅隨機保留30%的標記,也能達到與使用完整視覺標記集相當的性能。我們的成果揭示了一條朝向適應性且高效的多模態剪枝的可行路徑,這有助於實現可擴展且低開銷的推理,同時不犧牲性能。
多模態科學問題(MSPs)涉及需要整合多種模態(如文本和圖表)的複雜問題,這在人工智慧領域提出了重大挑戰。儘管在解決傳統科學問題方面已取得進展,但MSPs仍面臨兩個主要問題:科學問題解決中的多模態綜合推理挑戰,以及缺乏反思與再思考能力。為應對這些問題,我們引入了一個基於大七人格特質與蘇格拉底引導的多代理框架(MAPS)。該框架利用七個不同的代理,通過反饋機制和蘇格拉底方法來指導MSPs的解決。針對第一個問題,我們提出了一個漸進式的四代理解決策略,每個代理專注於問題解決過程的特定階段。對於第二個問題,我們引入了一個受蘇格拉底提問啟發的批評代理,它促進了批判性思維並激發了自主學習。我們在EMMA、奧林匹克和MathVista數據集上進行了廣泛的實驗,在所有任務中取得了比當前SOTA模型高出15.84%的優異結果。同時,額外的分析實驗也驗證了模型的進步及其泛化能力。
在自然語言處理領域,高效處理長上下文一直是一個持續追求的目標。隨著長文檔、對話和其他文本數據的數量不斷增長,開發能夠有效且高效處理和分析大量輸入的長上下文語言模型(LCLMs)變得尤為重要。本文全面綜述了大語言模型在長上下文建模方面的最新進展。我們的綜述圍繞三個關鍵方面展開:如何獲得有效且高效的LCLMs、如何高效地訓練和部署LCLMs,以及如何全面評估和分析LCLMs。對於第一個方面,我們討論了面向長上下文處理的數據策略、架構設計和工作流程方法。對於第二個方面,我們詳細檢視了LCLM訓練和推理所需的基礎設施。對於第三個方面,我們提出了長上下文理解和長文本生成的評估範式,以及LCLMs的行為分析和機制可解釋性。除了這三個關鍵方面,我們還深入探討了現有LCLMs已部署的多樣化應用場景,並勾勒了未來發展的潛在方向。本綜述提供了關於長上下文大語言模型的最新文獻回顧,我們希望這能成為研究人員和工程師的寶貴資源。相關的GitHub倉庫收集了最新的論文和代碼庫,可訪問: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}。
大型語言模型的基本問答格式涉及輸入提示並接收回應,而提示的品質直接影響回應的有效性。自動提示優化(APO)旨在擺脫手動設計提示的認知偏見,探索更廣泛的提示設計空間。然而,現有的APO方法存在固定模板靈活性有限和提示空間搜索效率低下的關鍵問題。為此,我們提出了一種融合蘇格拉底指導的多代理框架(MARS),該框架利用多代理融合技術進行自動規劃,並逐步持續優化和評估。具體而言,MARS由七個具有不同功能的代理組成,這些代理自主使用規劃器設計確保靈活性的優化路徑。此外,它採用教師-評論家-學生的蘇格拉底對話模式,在進行有效搜索的同時迭代優化提示。我們在各種數據集上進行了廣泛的實驗,以驗證我們方法的有效性,並進行了額外的分析實驗,以評估模型的進步以及可解釋性。
設計有效的具身多智能體系統對於解決跨領域的複雜現實任務至關重要。由於具身多智能體系統的複雜性,現有方法無法自動生成此類系統的安全且高效的訓練數據。為此,我們提出了具身多智能體系統的組合約束概念,以應對具身智能體之間協作所帶來的挑戰。我們設計了針對不同類型約束的各種接口,實現與物理世界的無縫交互。利用組合約束和專門設計的接口,我們開發了一個自動化的具身多智能體系統數據收集框架,並引入了首個具身多智能體操作基準——RoboFactory。基於RoboFactory基準,我們調整並評估了模仿學習方法,並分析了其在不同難度智能體任務中的表現。此外,我們探索了多智能體模仿學習的架構和訓練策略,旨在構建安全且高效的具身多智能體系統。
由於創意寫作任務並無單一正確答案,專精於此的大型語言模型(LLMs)應能生成多樣且有效的輸出。然而,LLM的後續訓練往往側重於提升生成質量,卻忽視了促進輸出多樣性。因此,在創意寫作生成領域,我們探討了旨在同時提升輸出多樣性與質量的後續訓練方法。我們的核心思想是將偏差——即訓練樣本與同一提示下所有其他樣本之間的差異程度——納入訓練目標,以促進從罕見高質量實例中學習。通過將我們的方法應用於直接偏好優化(DPO)和勝率偏好優化(ORPO),我們展示了在最小化質量下降的同時,能夠提升訓練模型的輸出多樣性。我們的最佳模型擁有80億參數,其多樣性可與人類創建的數據集相媲美,同時輸出質量接近我們所考察的最佳指令調優模型,即GPT-4o和DeepSeek-R1。我們進一步通過人類評估、消融實驗以及與現有多樣化方法DivPO的對比,驗證了我們方法的有效性。
自迴歸視覺生成模型通常依賴於標記器將圖像壓縮成可順序預測的標記。在標記表示中存在一個基本困境:離散標記能夠通過標準交叉熵損失進行直接建模,但會遭受信息損失和標記器訓練不穩定的問題;連續標記能更好地保留視覺細節,但需要複雜的分佈建模,這使得生成流程變得複雜。在本論文中,我們提出了TokenBridge,它通過保持連續標記的強大表示能力,同時保留離散標記的建模簡潔性,來彌合這一差距。為實現這一點,我們通過訓練後量化將離散化與標記器訓練過程解耦,直接從連續表示中獲取離散標記。具體來說,我們引入了一種維度量化策略,獨立地對每個特徵維度進行離散化,並配備了一個輕量級的自迴歸預測機制,以高效地建模由此產生的大規模標記空間。大量實驗表明,我們的方法在使用標準分類預測的同時,達到了與連續方法相當的重建和生成質量。這項工作表明,橋接離散和連續範式能夠有效利用兩種方法的優勢,為通過簡單的自迴歸建模實現高質量視覺生成提供了一個有前景的方向。項目頁面:https://yuqingwang1029.github.io/TokenBridge。
逼真的3D全身對話虛擬人物在增強現實(AR)領域具有巨大潛力,其應用範圍從電子商務直播到全息通訊無所不包。儘管3D高斯潑濺(3DGS)技術在創建逼真虛擬人物方面取得了進展,但現有方法在全身對話任務中對面部表情和身體動作的細粒度控制上仍存在困難。此外,這些方法往往缺乏足夠的細節,且無法在移動設備上實時運行。我們提出了TaoAvatar,這是一個基於3DGS的高保真、輕量級全身對話虛擬人物,由多種信號驅動。我們的方法首先創建一個個性化的著衣人體參數模板,將高斯分佈綁定以表示外觀。接著,我們預訓練一個基於StyleUnet的網絡來處理複雜的姿態依賴非剛性變形,該網絡能夠捕捉高頻外觀細節,但對移動設備來說資源消耗過大。為解決這一問題,我們採用蒸餾技術將非剛性變形“烘焙”到一個輕量級的基於MLP的網絡中,並開發混合形狀來補償細節。大量實驗表明,TaoAvatar在各種設備上實現了實時運行的同時,達到了頂尖的渲染質量,在Apple Vision Pro等高清晰度立體設備上保持90 FPS的幀率。
DeepSeek-R1 的最新進展表明,通過可驗證獎勵的強化學習(RL),大型語言模型(LLMs)能夠實現複雜的推理能力,包括自我驗證和自我修正等精細行為,並顯著提升了模型在如 AIME 等挑戰性任務上的表現。受這些發現的啟發,我們的研究探討了是否能夠成功將類似的推理能力整合到大型視覺語言模型(LVLMs)中,並評估它們對多模態推理挑戰任務的影響。我們考慮了一種方法,該方法迭代地利用輕量級訓練數據的監督微調(SFT)和強化學習(RL)來進一步提升模型的泛化能力。最初,推理能力是通過使用來自多樣化視覺數據集的高質量圖像描述生成推理步驟,從純文本的 R1 模型中提煉出來的。隨後,迭代的 RL 訓練進一步增強了推理技能,每一輪 RL 改進後的模型都會生成更精煉的 SFT 數據集供下一輪使用。這一迭代過程產生了 OpenVLThinker,這是一個在 MathVista、MathVerse 和 MathVision 等挑戰性基準上持續展現出改進推理性能的 LVLM,展示了我們策略在實現穩健視覺語言推理方面的潛力。代碼、模型和數據均存放於 https://github.com/yihedeng9/OpenVLThinker。
儘管在文本到視頻生成領域取得了顯著進展,但在視頻生成研究中,實現對細粒度時空屬性的精確和靈活控制仍然是一個重大的未解難題。為應對這些限制,我們引入了VCtrl(亦稱PP-VCtrl),這是一個新穎的框架,旨在以統一的方式實現對預訓練視頻擴散模型的細粒度控制。VCtrl通過一個可泛化的條件模塊,將多樣化的用戶指定控制信號——如Canny邊緣、分割掩碼和人體關鍵點——整合到預訓練的視頻擴散模型中,而無需修改底層生成器。此外,我們設計了一個統一的控制信號編碼管道和稀疏殘差連接機制,以高效地融入控制表示。全面的實驗和人類評估表明,VCtrl有效提升了可控性和生成質量。源代碼和預訓練模型已公開,並使用PaddlePaddle框架實現,詳見http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl。
儘管多模態大語言模型(MLLMs)在多樣化任務中展現了令人印象深刻的性能,但在視覺數學問題解決方面,尤其是在準確感知和解釋圖表方面,它們尚未充分發揮其潛力。受人類典型思維過程的啟發,我們假設從圖表中提取有意義信息的感知能力至關重要,因為它直接影響後續的推理過程。為驗證這一假設,我們開發了FlowVerse,這是一個全面的基準測試,將問題解決過程中使用的所有信息分類為四個組件,並將其組合成六個問題版本進行評估。我們在FlowVerse上的初步結果顯示,現有的MLLMs在提取圖表中的關鍵信息和推理屬性,以及基於這些視覺輸入進行複雜推理方面存在顯著限制。為此,我們引入了MathFlow,這是一個模塊化的問題解決流程,將感知和推理解耦為獨立的階段,從而分別優化每個階段。考慮到當前MLLMs在感知方面的局限性,我們訓練了MathFlow-P-7B作為專用的感知模型。實驗結果表明,當MathFlow-P-7B與各種閉源和開源推理模型集成時,能帶來顯著的性能提升。這證明了MathFlow流程的有效性及其與多樣化推理框架的兼容性。FlowVerse基準測試和代碼可在https://github.com/MathFlow-zju/MathFlow獲取。
在僅有少量甚至單一主題圖像的情況下,實現圖像生成與編輯的個性化尤具挑戰性。個性化的一種常見方法是概念學習,它能夠相對快速地將主題整合到現有模型中,但當主題圖像數量較少時,生成圖像的質量往往迅速下降。通過預訓練編碼器可以提升質量,然而訓練過程限制了生成圖像僅限於訓練分佈,且耗時較長。如何在不進行訓練的情況下,從單一圖像實現圖像生成與編輯的個性化,仍是一個未解的難題。本文提出SISO,一種基於與輸入主題圖像相似度優化的新穎、無需訓練的方法。具體而言,SISO迭代生成圖像並根據與給定主題圖像的相似度損失優化模型,直至達到滿意的相似度水平,從而實現對任何圖像生成器的即插即用式優化。我們在多樣化的個人主題數據集上,針對圖像編輯和圖像生成兩項任務評估了SISO,結果顯示其在圖像質量、主題忠實度及背景保留方面相較現有方法有顯著提升。
本文提出了一種名為\textsc{FastCuRL}的簡潔高效課程強化學習方法,該方法結合了上下文窗口擴展策略,旨在加速類R1推理模型的強化學習訓練效率,同時提升其在處理具有長鏈推理邏輯的複雜任務時的表現,特別是在1.5B參數的語言模型上。\textsc{FastCuRL}包含兩個主要步驟:基於長度的訓練數據分段和上下文窗口擴展訓練。具體而言,前者首先根據輸入提示的長度將原始訓練數據劃分為三個不同層次,後者則利用分段後的訓練數據集,逐步增加上下文窗口長度來訓練推理模型。實驗結果表明,\textsc{FastCuRL}-1.5B-Preview在所有五個數據集(包括MATH 500、AIME 2024、AMC 2023、Minerva Math和OlympiadBench)上均超越了DeepScaleR-1.5B-Preview,且僅使用了50%的訓練步數。此外,FastCuRL-1.5B-Preview的所有訓練階段僅需單個配備8個GPU的節點即可完成。
精確評估文本提示與生成視頻之間的語義對齊仍然是文本到視頻(T2V)生成中的一個挑戰。現有的文本到視頻對齊指標(如CLIPScore)僅生成粗粒度的分數,缺乏細粒度的對齊細節,無法與人類偏好保持一致。為了解決這一限制,我們提出了ETVA,一種通過細粒度問題生成和回答來評估文本到視頻對齊的新方法。首先,一個多代理系統將提示解析為語義場景圖以生成原子問題。然後,我們設計了一個知識增強的多階段推理框架來回答這些問題,其中一個輔助的大型語言模型(LLM)首先檢索相關的常識知識(例如物理定律),然後視頻LLM通過多階段推理機制回答生成的問題。大量實驗表明,ETVA的Spearman相關係數達到58.47,顯示出與人類判斷的相關性遠高於現有指標的31.0。我們還構建了一個專門用於文本到視頻對齊評估的綜合基準,包含2k個多樣化的提示和12k個跨越10個類別的原子問題。通過對15個現有文本到視頻模型的系統評估,我們識別了它們的關鍵能力和局限性,為下一代T2V生成鋪平了道路。
在本篇論文中,我們介紹了MapBench——首個專為人類可讀、基於像素的地圖戶外導航而設計的數據集,該數據集源自複雜的路徑尋找場景。MapBench包含來自100張多樣化地圖的超過1600個像素空間地圖路徑尋找問題。在MapBench中,大型視覺語言模型(LVLMs)根據地圖圖像及包含起點和終點地標的查詢生成基於語言的導航指令。對於每張地圖,MapBench提供了地圖空間場景圖(MSSG)作為索引數據結構,用於在自然語言與評估LVLM生成結果之間進行轉換。我們展示了MapBench對現有最先進的LVLMs構成了重大挑戰,無論是零樣本提示還是在思維鏈(CoT)增強推理框架下,該框架將地圖導航分解為一系列認知過程。我們對開源和閉源LVLMs的評估凸顯了MapBench帶來的巨大難度,揭示了這些模型在空間推理和結構化決策能力上的關鍵限制。我們已在https://github.com/taco-group/MapBench上發布了所有代碼和數據集。
大型视觉语言模型(LVLMs)在结合视觉理解与语言生成方面取得了显著进展。尽管取得了这些成功,LVLMs的训练数据仍然面临长尾(LT)问题,即数据分布高度不平衡。以往的研究主要集中在传统的VLM架构,如CLIP或ViT,以及特定任务,如识别和分类。然而,对于LVLM(例如LLaVA)和更广泛任务(例如视觉问答和视觉推理)的探索仍显不足。本文首先深入分析了LVLMs中的长尾问题,并识别出两个核心原因:头部概念的过度代表和尾部概念的不足代表。基于上述观察,我们提出了一个自适应数据精炼框架(ADR),该框架包含两个阶段:数据再平衡(DR)和数据合成(DS)。在DR阶段,我们根据实体分布自适应地重新平衡冗余数据,而在DS阶段,我们利用去噪扩散概率模型(DDPMs)和稀缺图像来补充不足代表的部分。通过在十一个基准上的全面评估,我们提出的ADR有效缓解了训练数据中的长尾问题,将LLaVA 1.5的平均性能相对提高了4.36%,且未增加训练数据量。
隱性偏見指的是自動或自發的心理過程,這些過程塑造了感知、判斷和行為。以往研究大型語言模型(LLMs)中的「隱性偏見」時,通常與人類研究中的方法不同,主要關注模型輸出而非模型處理過程。為了探究模型處理過程,我們提出了一種名為推理模型隱性關聯測試(RM-IAT)的方法,用於研究推理模型中的隱性偏見樣式:這些LLMs通過逐步推理來解決複雜任務。運用此方法,我們發現推理模型在處理關聯不相容信息時,比處理關聯相容信息需要更多的標記。這些發現表明,AI系統在處理信息時存在與人類隱性偏見相似的樣式。我們探討了這些隱性偏見樣式在實際應用部署中的影響。
視頻大型語言模型(ViLLMs)在通用視頻理解方面表現出色,例如識別說話和進食等活動,但在身份感知理解方面存在困難,如「Wilson正在接受化療」或「Tom正在與Sarah討論」,這限制了其在智能醫療和智能家居環境中的應用。為了解決這一限制,我們提出了一種一次性學習框架PVChat,這是首個能夠從每個主體的單個視頻中進行主體感知問答(QA)的個性化ViLLM。我們的方法在合成增強的視頻-QA數據集上優化了混合頭部(MoH)增強的ViLLM,利用了一種漸進的圖像到視頻學習策略。具體來說,我們引入了一個自動化增強管道,該管道合成了保留身份的正樣本,並從現有視頻語料庫中檢索困難負樣本,生成了一個包含四種QA類型的多樣化訓練數據集:存在性、外觀、動作和位置查詢。為了增強特定主體的學習,我們提出了一種ReLU路由MoH注意力機制,以及兩個新穎的目標:(1) 通過指數距離縮放實現漸進學習的平滑接近正則化,和(2) 平衡注意力路由的頭部激活增強。最後,我們採用了一種兩階段訓練策略,從圖像預訓練過渡到視頻微調,實現了從靜態屬性到動態表示的漸進學習過程。我們在多樣化的數據集上評估了PVChat,涵蓋了醫療場景、電視劇、動畫和現實世界鏡頭,展示了其在從單個視頻學習後在個性化特徵理解方面的優越性,相比於最先進的ViLLMs。
近年來,圖像生成領域取得了顯著進展,特別是在將模型與普世人類偏好對齊的微調方法方面。本文探討了偏好數據在擴散模型訓練過程中的關鍵作用,尤其是在Diffusion-DPO及其後續改進的背景下。我們研究了圖像生成中普世人類偏好的複雜性,強調了這些偏好的主觀性以及偏好數據集中少數樣本所帶來的挑戰。通過初步實驗,我們證明了少數樣本的存在及其對模型性能的不利影響。我們提出了Adaptive-DPO——一種將少數樣本感知指標納入DPO目標的新方法。該指標包括註釋者內置信度和註釋者間穩定性,能夠區分多數樣本和少數樣本。我們引入了一種Adaptive-DPO損失函數,該函數在兩個方面改進了DPO損失:增強模型對多數標籤的學習,同時減輕少數樣本的負面影響。我們的實驗表明,該方法能有效處理合成少數數據和真實世界偏好數據,為圖像生成任務中更有效的訓練方法鋪平了道路。
圖像地理定位,傳統上是指人工智慧模型預測圖像的精確GPS座標,這是一項具有多種下游應用的挑戰性任務。然而,用戶無法利用該模型來進一步獲取除GPS座標以外的知識;該模型缺乏對位置的理解以及與用戶進行對話的能力。近年來,隨著大型多模態模型(LMMs)的巨大進展,無論是專有還是開源的研究者都嘗試通過LMMs來進行圖像地理定位。然而,問題依然存在;除了通用任務外,對於更專業的下游任務(其中之一就是地理定位),LMMs表現不佳。在本研究中,我們提出通過引入一個對話模型GAEA來解決這一問題,該模型能夠根據用戶需求提供有關圖像位置的信息。目前尚無大規模數據集能夠訓練此類模型。因此,我們提出了一個全面的數據集GAEA,包含80萬張圖像和約160萬個問答對,這些數據是通過利用OpenStreetMap(OSM)屬性和地理上下文線索構建的。為了進行定量評估,我們提出了一個多樣化的基準,包含4K個圖像-文本對,以評估配備多種問題類型的對話能力。我們考慮了11個最先進的開源和專有LMMs,並證明GAEA顯著優於最佳開源模型LLaVA-OneVision,提升了25.69%,並優於最佳專有模型GPT-4o,提升了8.28%。我們的數據集、模型和代碼均已公開。
近期利用遮罩進行3D臉部編輯的方法,通過運用神經輻射場(NeRF)技術,已能生成高品質的編輯圖像。儘管這些方法表現出色,但由於使用預訓練的分割遮罩,現有方法往往提供有限的用戶控制。要利用具有理想佈局的遮罩,需要大量的訓練數據集,而這在收集上具有挑戰性。我們提出了FFaceNeRF,這是一種基於NeRF的臉部編輯技術,能夠克服因使用固定遮罩佈局而導致的用戶控制受限問題。我們的方法採用了帶有特徵注入的幾何適配器,有效操控幾何屬性。此外,我們採用潛在混合進行三平面增強,使得僅需少量樣本即可完成訓練。這促進了模型快速適應所需的遮罩佈局,對於個性化醫療影像或創意臉部編輯等領域的應用至關重要。我們的比較評估顯示,FFaceNeRF在靈活性、控制力及生成圖像質量方面均超越了現有的基於遮罩的臉部編輯方法,為未來定制化及高保真3D臉部編輯的進步鋪平了道路。代碼可在{https://kwanyun.github.io/FFaceNeRF_page/{項目頁面}}獲取。
通用少樣本三維點雲分割(GFS-PCS)旨在使模型能夠利用少量支持樣本適應新類別,同時保持基礎類別的分割能力。現有的GFS-PCS方法通過與支持或查詢特徵的交互來增強原型,但仍受限於少樣本樣本所帶來的稀疏知識。與此同時,三維視覺語言模型(3D VLMs)能夠泛化至開放世界中的新類別,蘊含著豐富但帶有噪聲的新類別知識。在本研究中,我們提出了一種GFS-PCS框架,名為GFS-VL,它將來自3D VLMs的密集但帶噪聲的偽標籤與精確卻稀疏的少樣本樣本相結合,以最大化兩者的優勢。具體而言,我們提出了一種基於原型引導的偽標籤選擇方法,用於過濾低質量區域,隨後採用一種自適應填充策略,結合偽標籤上下文和少樣本樣本的知識,對過濾後的未標記區域進行自適應標註。此外,我們設計了一種新舊類別混合策略,將少樣本樣本嵌入訓練場景中,保留關鍵上下文以提升新類別的學習效果。鑑於當前GFS-PCS基準測試中多樣性的不足,我們引入了兩個包含多樣新類別的挑戰性基準,用於全面的泛化能力評估。實驗驗證了我們框架在不同模型和數據集上的有效性。我們的方法和基準測試為推動GFS-PCS在現實世界中的應用奠定了堅實基礎。代碼已開源於https://github.com/ZhaochongAn/GFS-VL。