AI研究論文每日精選

每日精選AI研究論文及翻譯

統一多模態理解與生成模型：進展、挑戰與機遇
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5

ByXinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

近年來，多模態理解模型與圖像生成模型均取得了顯著進展。儘管各自領域已取得成功，但這兩個領域的發展卻相對獨立，形成了截然不同的架構範式：自迴歸架構在多模態理解中佔據主導地位，而擴散模型則成為圖像生成的基石。最近，開發統一框架以整合這些任務的興趣日益增長。GPT-4o新功能的出現正是這一趨勢的體現，凸顯了統一化的潛力。然而，兩大領域間的架構差異帶來了重大挑戰。為清晰概述當前朝向統一化的努力，我們提供了一份全面調查，旨在引導未來研究。首先，我們介紹了多模態理解與文本到圖像生成模型的基礎概念及最新進展。接著，我們回顧了現有的統一模型，將其分為三大架構範式：基於擴散的模型、基於自迴歸的模型，以及融合自迴歸與擴散機制的混合方法。針對每一類別，我們分析了相關工作引入的結構設計與創新點。此外，我們還彙編了專為統一模型設計的數據集與基準測試，為未來探索提供資源。最後，我們討論了這一新興領域面臨的關鍵挑戰，包括分詞策略、跨模態注意力機制及數據問題。鑑於該領域仍處於早期階段，我們預期將有快速進展，並將定期更新本調查。我們的目標是激發進一步研究，並為學術界提供有價值的參考。本調查的相關參考文獻已發佈於GitHub（https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models）。

ZeroSearch：無需搜索即可激勵大型語言模型的搜索能力
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7

ByHao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

有效的資訊搜尋對於提升大型語言模型（LLMs）的推理與生成能力至關重要。近期研究探索了利用強化學習（RL）來增強LLMs的搜尋能力，透過與現實環境中的即時搜尋引擎互動。儘管這些方法展現出令人鼓舞的成果，它們面臨兩大挑戰：（1）文件品質不可控：搜尋引擎返回的文件品質往往難以預測，這為訓練過程引入了噪音與不穩定性。（2）過高的API成本：RL訓練需要頻繁的rollout，可能涉及數十萬次搜尋請求，導致巨額API費用，嚴重限制了可擴展性。為應對這些挑戰，我們提出了ZeroSearch，這是一個強化學習框架，旨在激勵LLMs的搜尋能力，而無需與真實搜尋引擎互動。我們的方法始於輕量級的監督微調，將LLM轉化為一個檢索模組，能夠針對查詢生成相關且帶有噪音的文件。在RL訓練期間，我們採用基於課程的rollout策略，逐步降低生成文件的品質，透過讓模型面對日益挑戰的檢索場景，逐步激發其推理能力。大量實驗證明，ZeroSearch有效激勵了LLMs的搜尋能力，使用3B LLM作為檢索模組。值得注意的是，7B檢索模組的表現與真實搜尋引擎相當，而14B檢索模組甚至超越了它。此外，該方法在各種參數規模的基礎模型與指令微調模型上均表現出良好的泛化能力，並兼容多種RL算法。

HunyuanCustom：面向定制化视频生成的多模态驱动架构
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7

ByTeng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

定制化視頻生成旨在根據用戶靈活定義的條件，生成包含特定主體的視頻。然而，現有方法往往在身份一致性和輸入模式的多樣性方面存在挑戰。本文提出HunyuanCustom，這是一個多模態定制視頻生成框架，強調主體一致性的同時支持圖像、音頻、視頻和文本條件。基於HunyuanVideo，我們的模型首先通過引入基於LLaVA的文本-圖像融合模塊來增強多模態理解，並利用時間串聯的圖像ID增強模塊來強化跨幀的身份特徵，從而解決圖像-文本條件下的生成任務。為了實現音頻和視頻條件下的生成，我們進一步提出了特定模態的條件注入機制：一個通過空間交叉注意力實現層次對齊的AudioNet模塊，以及一個通過基於patchify的特徵對齊網絡整合潛在壓縮條件視頻的視頻驅動注入模塊。在單一和多主體場景下的廣泛實驗表明，HunyuanCustom在ID一致性、真實感和文本-視頻對齊方面顯著優於現有的開源和閉源方法。此外，我們驗證了其在下游任務中的魯棒性，包括音頻和視頻驅動的定制視頻生成。我們的結果凸顯了多模態條件和身份保留策略在推進可控視頻生成方面的有效性。所有代碼和模型均可通過https://hunyuancustom.github.io獲取。

OpenVision：一個全開放、性價比高的先進視覺編碼器家族，適用於多模態學習
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7

ByXianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

OpenAI於2021年初發布的CLIP，長期以來一直是構建多模態基礎模型時視覺編碼器的首選。儘管近期如SigLIP等替代方案開始挑戰這一現狀，但據我們所知，尚無完全開源的選項：它們的訓練數據仍屬專有，且/或其訓練方法未公開。本文通過OpenVision填補了這一空白，這是一系列完全開源、性價比高的視覺編碼器，當整合到如LLaVA等多模態框架中時，其性能可媲美甚至超越OpenAI的CLIP。OpenVision基於現有工作——例如，採用CLIPS作為訓練框架，Recap-DataComp-1B作為訓練數據——同時揭示了提升編碼器質量的多項關鍵見解，並展示了在推進多模態模型方面的實際益處。通過發布參數量從5.9M到632.1M不等的視覺編碼器，OpenVision為實踐者在構建多模態模型時提供了容量與效率之間的靈活權衡：更大模型帶來更強的多模態性能，而較小版本則支持輕量級、邊緣部署的多模態應用。

PrimitiveAnything：基於自回歸Transformer的人類手工3D基元組裝生成
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7

ByJingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han

形狀基元抽象，即將複雜的三維形體分解為簡單幾何元素，在人類視覺認知中扮演著關鍵角色，並在計算機視覺與圖形學領域具有廣泛應用。儘管近年來三維內容生成技術取得了顯著進展，現有的基元抽象方法要么依賴於語義理解有限的幾何優化，要么從小規模、特定類別的數據集中學習，難以泛化至多樣化的形體類別。我們提出了PrimitiveAnything，這是一種新穎的框架，將形狀基元抽象重新表述為基元組裝生成任務。PrimitiveAnything包含一個基於形狀條件的基元Transformer用於自迴歸生成，以及一個無歧義的參數化方案，以統一方式表示多種類型的基元。該框架直接從大規模人工製作的抽象中學習基元組裝過程，使其能夠捕捉人類如何將複雜形體分解為基元元素。通過大量實驗，我們證明PrimitiveAnything能夠生成高質量的基元組裝，這些組裝不僅更好地符合人類感知，同時在多樣化的形體類別中保持幾何保真度。它為多種三維應用帶來益處，並展現了在遊戲中實現基於基元的用戶生成內容（UGC）的潛力。項目頁面：https://primitiveanything.github.io

R&B：領域重組與數據混合平衡以實現高效基礎模型訓練
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1

ByAlbert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala

數據混合策略已成功降低了訓練語言模型的成本。儘管前景看好，這類方法仍存在兩個缺陷。首先，它們依賴於預先確定的數據領域（如數據來源、任務類型），這可能無法捕捉到關鍵的語義細微差別，從而限制了性能的提升。其次，這些方法在計算上隨著領域數量的增加而變得難以承受。我們通過R&B框架來應對這些挑戰，該框架基於語義相似性重新劃分訓練數據（重組）以創建更細粒度的領域，並利用訓練過程中獲得的領域梯度所誘導的Gram矩陣來高效優化數據組成（平衡）。與先前的工作不同，它消除了獲取評估信息（如損失或梯度）所需的額外計算需求。我們在標準的正則性條件下分析了這一技術，並提供了理論見解，證明了R&B相比非自適應混合方法的有效性。在實證研究中，我們展示了R&B在五個多樣化數據集上的有效性，這些數據集涵蓋了從自然語言到推理和多模態任務。僅需0.01%的額外計算開銷，R&B就能匹配或超越最先進的數據混合策略的性能。

超越識別：評估視覺語言模型中的視角採納能力
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3

ByGracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

我們研究了視覺語言模型（VLMs）在執行視角轉換任務上的能力，這些任務受到已確立的人類測試啟發而設計。我們的方法利用精心控制的場景，其中單個擬人化迷你人偶與單個物體配對。通過系統性地改變空間配置——例如物體相對於擬人化迷你人偶的位置以及迷你人偶的朝向——並使用鳥瞰圖和表面視圖，我們創建了144個獨特的視覺任務。每個視覺任務都配有一系列7個診斷性問題，旨在評估三個層次的視覺認知：場景理解、空間推理和視角轉換。我們對多個最先進的模型進行了評估，包括GPT-4-Turbo、GPT-4o、Llama-3.2-11B-Vision-Instruct以及Claude Sonnet的變體，結果顯示，雖然它們在場景理解方面表現出色，但在空間推理上的表現顯著下降，而在視角轉換上的表現則進一步惡化。我們的分析表明，表面層次的物體識別與複雜視覺任務所需的深層次空間和視角推理之間存在差距，這表明在未來VLM的開發中需要整合明確的幾何表示和定制的訓練協議。

評估大型語言模型的群體智慧
Benchmarking LLMs' Swarm intelligence

May 7

ByKai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun

大型語言模型（LLMs）在複雜推理方面展現出潛力，然而，在嚴格約束條件下——如自然群體中典型的有限局部感知與通信——其於多智能體系統（MAS）中湧現協調的能力仍大多未被探索，尤其是在群體智能的細微差異方面。現有的基準測試往往未能充分捕捉到當智能體在時空信息不完全的情況下運作時，所產生的去中心化協調的獨特挑戰。為彌補這一差距，我們引入了SwarmBench，這是一個新穎的基準測試，旨在系統評估作為去中心化智能體運作的LLMs的群體智能能力。SwarmBench在一個可配置的二維網格環境中，設定了五項基礎的MAS協調任務，迫使智能體主要依賴於局部感官輸入（k x k視野）和局部通信。我們提出了協調有效性的度量標準，並分析了湧現的群體動態。在零樣本設置下評估多個領先的LLMs，我們發現不同任務間存在顯著的性能差異，凸顯了局部信息約束帶來的困難。雖然某些協調行為得以湧現，但結果表明，在這些去中心化場景中，面對不確定性時，穩健的規劃與策略形成能力仍存在限制。在類似群體的條件下評估LLMs，對於實現其在未來去中心化系統中的潛力至關重要。我們將SwarmBench作為一個開放、可擴展的工具包發布——它基於一個具有定義機械特性的可定制且可擴展的物理系統構建。它提供了環境、提示、評估腳本以及生成的全面實驗數據集，旨在促進基於LLM的MAS協調及具身MAS理論基礎的可重複研究。我們的代碼庫可在https://github.com/x66ccff/swarmbench獲取。

LLM獨立自適應RAG：讓問題本身說話
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

May 7

ByMaria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

大型語言模型（LLMs）容易產生幻覺，而檢索增強生成（RAG）有助於緩解這一問題，但代價是高昂的計算成本，同時存在誤導信息的風險。自適應檢索旨在僅在必要時進行檢索，但現有方法依賴於基於LLM的不確定性估計，這仍然效率低下且不切實際。在本研究中，我們引入了基於外部信息的輕量級、獨立於LLM的自適應檢索方法。我們研究了27個特徵，將其分為7組，並探討了它們的混合組合。我們在6個問答數據集上評估了這些方法，評估了問答性能和效率。結果表明，我們的方法在性能上與複雜的基於LLM的方法相當，同時實現了顯著的效率提升，展示了外部信息在自適應檢索中的潛力。

超越定理證明：形式化問題解決的構建、框架與基準
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7

ByQi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan

作為一項看似不言自明的任務，問題解決一直是科學與工程領域的重要組成部分。然而，對於問題解決本身，尚缺乏一個通用且具體的定義。隨著基於人工智能的問題解決代理的近期發展，對過程層面可驗證性的需求迅速增長，但這一領域仍未被充分探索。為填補這些空白，我們提出了一種基於確定性馬爾可夫決策過程的問題解決原則性定義；一個新穎的框架——FPS（形式化問題解決），該框架利用現有的FTP（形式化定理證明）環境來執行過程驗證的問題解決；以及D-FPS（演繹式FPS），它將解決過程與答案驗證分離，以實現更好的人類對齊。我們證明了這些框架的表達能力、健全性和完備性。我們構建了三個關於問題解決的基準測試：FormalMath500，它是MATH500基準測試子集的形式化版本；MiniF2F-Solving和PutnamBench-Solving，這兩個是FTP基準測試MiniF2F和PutnamBench的改編版本。為了進行忠實、可解釋且與人類對齊的評估，我們提出了RPE（受限命題等價性），這是一種通過形式化驗證來確定答案正確性的符號化方法。我們評估了四種流行的FTP模型和兩種提示方法作為基線，最多解決了FormalMath500的23.77%、MiniF2F-Solving的27.47%以及PutnamBench-Solving的0.31%。

OmniGIRL：一個多語言多模態的GitHub問題解決基準測試平台
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7

ByLianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng

GitHub 問題解決任務旨在自動化解決存儲庫中報告的問題。隨著大型語言模型（LLMs）的進步，該任務日益受到關注，並提出了多個基準來評估LLMs的問題解決能力。然而，現有基準存在三個主要限制。首先，當前基準僅專注於單一編程語言，限制了對跨語言存儲庫問題的評估。其次，它們通常涵蓋的領域範圍狹窄，可能無法代表現實世界問題的多樣性。第三，現有基準僅依賴於問題描述中的文本信息，忽略了問題中的多模態信息，如圖像。本文提出OmniGIRL，一個多語言、多模態、多領域的GitHub問題解決基準。OmniGIRL包含959個任務實例，這些實例來自四種編程語言（即Python、JavaScript、TypeScript和Java）和八個不同領域的存儲庫。我們的評估顯示，當前LLMs在OmniGIRL上的表現有限。值得注意的是，表現最佳的模型GPT-4o僅解決了8.6%的問題。此外，我們發現當前LLMs在需要理解圖像的問題上表現不佳。表現最佳的是Claude-3.5-Sonnet，它僅解決了10.5%包含圖像信息的問題。最後，我們分析了當前LLMs在OmniGIRL上失敗的原因，為未來的改進提供了見解。

知識增強型大型語言模型在複雜問題解決中的應用：綜述
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey

May 6

ByDa Zheng, Lun Du, Junwei Su, Yuchen Tian, Yuqi Zhu, Jintian Zhang, Lanning Wei, Ningyu Zhang, Huajun Chen

問題解決一直是推動人類在眾多領域進步的根本動力。隨著人工智慧的發展，大型語言模型（LLMs）已成為能夠應對跨領域複雜問題的強大工具。與傳統的計算系統不同，LLMs結合了原始計算能力與近似人類推理的能力，使其能夠生成解決方案、進行推論，甚至利用外部計算工具。然而，將LLMs應用於現實世界的問題解決面臨著重大挑戰，包括多步推理、領域知識整合和結果驗證。本調查探討了LLMs在複雜問題解決中的能力與限制，檢視了包括思維鏈（CoT）推理、知識增強以及各種基於LLM和工具的驗證技術。此外，我們強調了不同領域中的特定挑戰，如軟體工程、數學推理與證明、數據分析與建模以及科學研究。本文進一步討論了當前LLM解決方案的基本限制，並從多步推理、領域知識整合和結果驗證的角度探討了基於LLM的複雜問題解決的未來方向。

OpenHelix：機器人操作之簡要綜述、實證分析與開源雙系統VLA模型
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6

ByCan Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang

雙系統視覺-語言-動作（VLA）架構已成為具身智能研究的熱點，但現有開源工作尚不足以支持進一步的性能分析與優化。為解決這一問題，本文將總結並比較現有雙系統架構的結構設計，並對其核心設計要素進行系統性的實證評估。最終，本文將提供一個低成本的開源模型，以供進一步探索。當然，該項目將持續更新，提供更多實驗結論及性能更優的開源模型供大家選擇。項目頁面：https://openhelix-robot.github.io/。

OSUniverse：多模態GUI導航AI代理的基準測試平台
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

May 6

ByMariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan

在本論文中，我們介紹了OSUniverse：一個專為高級GUI導航AI代理設計的複雜多模態桌面任務基準測試，該測試著重於易用性、可擴展性、測試案例的全面覆蓋以及自動化驗證。我們將任務按複雜度遞增劃分，從基本的精確點擊到需要代理具備靈巧性、精確度和清晰思維的多步驟、多應用程序測試。在此介紹的第一版基準測試中，我們已校準了測試案例的複雜度，確保在發佈時，最先進的代理（SOTA）的表現不超過50%，而普通白領工作者則能完美完成所有任務。此基準測試可手動評分，但我們也引入了一個平均錯誤率低於2%的自動化驗證機制。因此，該基準測試為短期和中期的GUI導航AI代理的進展、能力及有效性提供了堅實的自動化測量基礎。基準測試的源代碼可在https://github.com/agentsea/osuniverse獲取。

AutoLibra：基於開放式反饋的代理度量歸納
AutoLibra: Agent Metric Induction from Open-Ended Feedback

May 5

ByHao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang

代理主要通過任務成功率等指標進行評估與優化，這些指標較為粗糙，依賴於專家的手動設計，且未能獎勵中間湧現的行為。我們提出了AutoLibra，一個用於代理評估的框架，它能將開放式的人類反饋，例如“如果你發現按鈕被禁用，就不要再點擊它”，或“這個代理在決定自行行動時擁有過多的自主權”，轉化為評估代理軌跡中細粒度行為的指標。AutoLibra通過將反饋與代理的行為相聯繫，聚類相似的正負面行為，並創建具有明確定義和具體示例的具體指標來實現這一點，這些指標可用於提示作為評判者的大型語言模型（LLM）。我們進一步提出了兩個元指標來評估一組（誘導出的）指標與開放反饋的對齊程度：“覆蓋率”和“冗餘度”。通過優化這些元指標，我們實驗性地展示了AutoLibra在誘導更具體的代理評估指標方面的能力，這些指標比以往代理評估基準中提出的更為具體，並發現了新的指標來分析代理。我們還展示了AutoLibra在代理改進中的兩個應用：首先，我們表明，在廣泛的文本遊戲任務中，AutoLibra誘導的指標作為提示工程目標比任務成功率更為有效，將代理性能相較基線平均提升了20%。其次，我們展示了AutoLibra能夠迭代地選擇高質量的微調數據用於網絡導航代理。我們的結果表明，AutoLibra是一個強大的、任務無關的工具，用於評估和改進語言代理。

基於不確定性加權的圖像-事件多模態融合用於視頻異常檢測
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

May 5

BySungheon Jeong, Jihong Park, Mohsen Imani

现有的视频异常检测器大多仅依赖RGB帧，这些帧缺乏捕捉突发或瞬态运动线索所需的时间分辨率，而这些线索正是异常事件的关键指标。为解决这一局限，我们提出了图像-事件融合视频异常检测框架（IEF-VAD），该框架直接从RGB视频中合成事件表示，并通过一种基于不确定性的原则性过程将其与图像特征融合。该系统（i）采用学生t分布似然对重尾传感器噪声建模，通过拉普拉斯近似导出值级逆方差权重；（ii）应用卡尔曼式逐帧更新，以平衡不同模态随时间的变化；（iii）迭代优化融合的潜在状态，以消除残留的跨模态噪声。无需专用事件传感器或帧级标签，IEF-VAD在多个现实世界异常检测基准上树立了新的技术标杆。这些发现凸显了合成事件表示在强调RGB帧中常被忽视的运动线索方面的效用，使得无需专用事件传感器即可实现跨多样应用的准确且鲁棒的视频理解。代码与模型可在https://github.com/EavnJeong/IEF-VAD获取。

COSMOS：大型語言模型的可預測且成本效益的適應性調整
COSMOS: Predictable and Cost-Effective Adaptation of LLMs

Apr 30

ByJiayu Wang, Aws Albarghouthi, Frederic Sala

大型語言模型（LLMs）通過採用多樣化的適應策略，在多項任務中展現出卓越的性能。然而，在資源受限的情況下，如何最佳選擇模型及適應策略是一大挑戰，通常需要進行大量實驗。本研究探討是否能在不進行昂貴試驗的情況下，準確預測性能與成本。我們將LLMs的策略選擇問題形式化，並引入COSMOS，這是一個統一預測框架，能夠以最小成本高效估算適應結果。我們通過一對強大的預測器來實例化並研究該框架的能力：嵌入增強的輕量級代理模型用於預測微調性能，以及低樣本縮放法則用於預測檢索增強的情境學習。在八個代表性基準上的廣泛評估表明，COSMOS在保持高預測準確性的同時，平均降低了92.72%的計算成本，在資源密集型場景中最高可達98.71%。我們的結果顯示，高效預測適應結果不僅可行，而且能在保持性能標準的同時，大幅減少LLM部署的計算開銷。

迈向多模态通才之路：通用层级与通用基准
On Path to Multimodal Generalist: General-Level and General-Bench

May 7

ByHao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang

多模态大语言模型（MLLM）当前正处于快速发展阶段，这一趋势得益于大语言模型（LLM）的先进能力。与早期的专业模型不同，现有的MLLM正朝着多模态通用模型（Multimodal Generalist）的范式演进。这些模型最初仅限于理解多种模态，现已发展到不仅能理解还能跨模态生成内容。其能力已从粗粒度的多模态理解扩展到细粒度，从支持有限模态到任意模态。尽管已有众多基准用于评估MLLM，但一个关键问题浮现：我们能否简单地认为跨任务性能越高，MLLM的能力就越强，从而更接近人类水平的AI？我们认为答案并非如此简单。本项目引入了“通用层级”（General-Level）评估框架，定义了MLLM性能与通用性的五级量表，提供了一种比较MLLM并衡量现有系统向更强大多模态通用模型乃至通用人工智能（AGI）迈进的方法论。该框架的核心是“协同效应”（Synergy）概念，它衡量模型在理解与生成、跨多模态之间是否保持了一致的能力。为支持这一评估，我们提出了“通用基准”（General-Bench），它涵盖了更广泛的技能、模态、格式和能力，包括超过700项任务和325,800个实例。涉及100多个现有最先进MLLM的评估结果揭示了通用模型的能力排名，凸显了实现真正AI的挑战。我们期待本项目能为下一代多模态基础模型的研究铺平道路，为加速AGI的实现提供坚实的基础设施。项目页面：https://generalist.top/

RAIL：面向CBCT半监督牙齿分割的区域感知指导学习
RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

May 6

ByChuyu Zhao, Hao Huang, Jiashuo Guo, Ziyu Shen, Zhongwei Zhou, Jie Liu, Zekuan Yu

半監督學習已成為從CBCT掃描中進行三維牙齒分割的一種引人注目的方法，尤其是在標註數據極為有限的情況下。然而，現有方法仍面臨兩個持續存在的挑戰：在監督訓練過程中，對於結構模糊或錯誤標註區域的校正監督不足；以及由未標註數據上不可靠的偽標籤導致的性能下降。為解決這些問題，我們提出了區域感知指導學習（RAIL），這是一種雙組雙學生的半監督框架。每組包含兩個由共享教師網絡指導的學生模型。通過在兩組之間交替訓練，RAIL促進了組間知識轉移和協作式的區域感知指導，同時減少了對任何單一模型特性的過度擬合。具體而言，RAIL引入了兩種指導機制。分歧聚焦監督（DFS）控制器通過僅在學生輸出與真實標籤及最佳學生模型均存在差異的區域內指導預測，從而將監督集中於結構模糊或錯誤標註的區域，以此提升監督學習的效果。在無監督階段，置信度感知學習（CAL）調節器在模型確定性高的區域強化一致性，同時在訓練過程中降低低置信度預測的影響。這有助於防止模型學習不穩定的模式，並提高偽標籤的整體可靠性。在四個CBCT牙齒分割數據集上的廣泛實驗表明，RAIL在有限標註條件下超越了現有的最先進方法。我們的代碼將在https://github.com/Tournesol-Saturday/RAIL上公開。

認知湧現：人機知識共創中的能動性、維度與動力學
Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

May 6

ByXule Lin

隨著人類與人工智慧系統超越工具使用者的關係，邁向共同演化的認知夥伴關係，科學知識的創造正經歷根本性的轉變。當AlphaFold革新了蛋白質結構預測領域時，研究者們描述了一種與認知夥伴的互動，這種互動重塑了他們對基礎關係的構想。本文介紹了“認知湧現”（Cognitio Emergens, CE）框架，該框架針對現有模型中的關鍵局限，這些模型聚焦於靜態角色或狹隘的指標，未能捕捉到科學理解如何通過人類與人工智慧之間遞歸的互動隨時間湧現。CE整合了三個組件來應對這些局限：描述權威如何在人類與人工智慧之間分配的“代理配置”（Directed, Contributory, Partnership），其中夥伴關係在配置間動態振盪而非線性推進；捕捉通過發現、整合與投射軸線上合作湧現的六種特定能力的“認知維度”，形成指導發展的獨特“能力簽名”；以及識別塑造這些關係演化力量的“夥伴動力學”，特別是研究者對其正式認可的知識失去解釋控制的“認知異化”風險。借鑒自創生理論、社會系統理論與組織模塊性，CE揭示了知識共創如何通過角色、價值觀與組織結構的持續協商而湧現。通過將人類與人工智慧的科學合作重新構想為根本上共同演化的過程，CE提供了一種平衡的視角，既不盲目讚揚也不無端畏懼人工智慧角色的演變，而是提供了培育夥伴關係的概念工具，這些工具在保持人類有意義參與的同時，促成了變革性的科學突破。

AI研究論文每日精選

每日精選AI研究論文及翻譯

統一多模態理解與生成模型：進展、挑戰與機遇
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5

ByXinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

ZeroSearch：無需搜索即可激勵大型語言模型的搜索能力
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7

ByHao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

HunyuanCustom：面向定制化视频生成的多模态驱动架构
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7

ByTeng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

OpenVision：一個全開放、性價比高的先進視覺編碼器家族，適用於多模態學習
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7

ByXianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

PrimitiveAnything：基於自回歸Transformer的人類手工3D基元組裝生成
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7

ByJingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han

OpenHelix：機器人操作之簡要綜述、實證分析與開源雙系統VLA模型
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6

ByCan Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang