ChatPaper.aiChatPaper

マルチモーダル汎用モデルへの道:汎用レベルと汎用ベンチマーク

On Path to Multimodal Generalist: General-Level and General-Bench

May 7, 2025
著者: Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、現在、LLMの高度な能力によって急速に成長を遂げています。従来の専門家モデルとは異なり、既存のMLLMはマルチモーダル汎用モデル(Multimodal Generalist)のパラダイムへと進化しています。当初は複数のモダリティを理解する能力に限定されていたこれらのモデルは、現在では理解だけでなく、モダリティを超えた生成も可能になっています。その能力は、粗粒度から細粒度のマルチモーダル理解へ、また限定的なモダリティのサポートから任意のモダリティのサポートへと拡大しています。MLLMを評価するための多くのベンチマークが存在しますが、重要な疑問が浮かびます:タスク全体での高いパフォーマンスが、より強力なMLLM能力を示し、人間レベルのAIに近づいていると単純に仮定できるでしょうか?私たちは、その答えはそう単純ではないと主張します。このプロジェクトでは、General-Levelという評価フレームワークを導入し、MLLMのパフォーマンスと汎用性を5段階のスケールで定義し、MLLMを比較し、既存のシステムがより強力なマルチモーダル汎用モデル、そして最終的にはAGI(人工汎用知能)に向けてどの程度進歩しているかを測る方法論を提供します。このフレームワークの核心は、Synergyという概念であり、モデルが理解と生成、そして複数のモダリティにわたって一貫した能力を維持しているかを測定します。この評価をサポートするために、General-Benchを提示します。これは、700以上のタスクと325,800のインスタンスを含む、より広範なスキル、モダリティ、フォーマット、および能力を網羅しています。100以上の最先端MLLMを対象とした評価結果から、汎用モデルの能力ランキングが明らかになり、真のAIに到達するための課題が浮き彫りになりました。このプロジェクトが、次世代のマルチモーダル基盤モデルに関する将来の研究の道を開き、AGIの実現を加速するための堅牢なインフラを提供することを期待しています。プロジェクトページ: https://generalist.top/
English
The Multimodal Large Language Model (MLLM) is currently experiencing rapid growth, driven by the advanced capabilities of LLMs. Unlike earlier specialists, existing MLLMs are evolving towards a Multimodal Generalist paradigm. Initially limited to understanding multiple modalities, these models have advanced to not only comprehend but also generate across modalities. Their capabilities have expanded from coarse-grained to fine-grained multimodal understanding and from supporting limited modalities to arbitrary ones. While many benchmarks exist to assess MLLMs, a critical question arises: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI? We argue that the answer is not as straightforward as it seems. This project introduces General-Level, an evaluation framework that defines 5-scale levels of MLLM performance and generality, offering a methodology to compare MLLMs and gauge the progress of existing systems towards more robust multimodal generalists and, ultimately, towards AGI. At the core of the framework is the concept of Synergy, which measures whether models maintain consistent capabilities across comprehension and generation, and across multiple modalities. To support this evaluation, we present General-Bench, which encompasses a broader spectrum of skills, modalities, formats, and capabilities, including over 700 tasks and 325,800 instances. The evaluation results that involve over 100 existing state-of-the-art MLLMs uncover the capability rankings of generalists, highlighting the challenges in reaching genuine AI. We expect this project to pave the way for future research on next-generation multimodal foundation models, providing a robust infrastructure to accelerate the realization of AGI. Project page: https://generalist.top/

Summary

AI-Generated Summary

PDF22May 8, 2025