ChatPaper.aiChatPaper

Sur la voie vers un généraliste multimodal : Niveau général et banc d'essai général

On Path to Multimodal Generalist: General-Level and General-Bench

May 7, 2025
Auteurs: Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
cs.AI

Résumé

Le modèle de langage multimodal de grande envergure (MLLM) connaît actuellement une croissance rapide, portée par les capacités avancées des LLM. Contrairement aux spécialistes antérieurs, les MLLM existants évoluent vers un paradigme de généraliste multimodal. Initialement limités à la compréhension de multiples modalités, ces modèles ont progressé pour non seulement comprendre mais aussi générer des contenus à travers les modalités. Leurs capacités se sont étendues, passant d'une compréhension multimodale grossière à fine, et de la prise en charge de modalités limitées à des modalités arbitraires. Bien que de nombreux benchmarks existent pour évaluer les MLLM, une question cruciale se pose : pouvons-nous simplement supposer qu'une performance supérieure à travers les tâches indique une capacité MLLM plus forte, nous rapprochant ainsi d'une IA de niveau humain ? Nous soutenons que la réponse n'est pas aussi simple qu'il y paraît. Ce projet introduit General-Level, un cadre d'évaluation qui définit 5 niveaux d'échelle de performance et de généralité des MLLM, offrant une méthodologie pour comparer les MLLM et mesurer les progrès des systèmes existants vers des généralistes multimodaux plus robustes et, finalement, vers l'AGI. Au cœur de ce cadre se trouve le concept de Synergie, qui mesure si les modèles maintiennent des capacités cohérentes à travers la compréhension et la génération, et à travers plusieurs modalités. Pour soutenir cette évaluation, nous présentons General-Bench, qui englobe un spectre plus large de compétences, modalités, formats et capacités, incluant plus de 700 tâches et 325 800 instances. Les résultats d'évaluation impliquant plus de 100 MLLM de pointe existants révèlent les classements de capacité des généralistes, mettant en lumière les défis pour atteindre une véritable IA. Nous espérons que ce projet ouvrira la voie à des recherches futures sur les modèles de fondation multimodaux de nouvelle génération, fournissant une infrastructure robuste pour accélérer la réalisation de l'AGI. Page du projet : https://generalist.top/
English
The Multimodal Large Language Model (MLLM) is currently experiencing rapid growth, driven by the advanced capabilities of LLMs. Unlike earlier specialists, existing MLLMs are evolving towards a Multimodal Generalist paradigm. Initially limited to understanding multiple modalities, these models have advanced to not only comprehend but also generate across modalities. Their capabilities have expanded from coarse-grained to fine-grained multimodal understanding and from supporting limited modalities to arbitrary ones. While many benchmarks exist to assess MLLMs, a critical question arises: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI? We argue that the answer is not as straightforward as it seems. This project introduces General-Level, an evaluation framework that defines 5-scale levels of MLLM performance and generality, offering a methodology to compare MLLMs and gauge the progress of existing systems towards more robust multimodal generalists and, ultimately, towards AGI. At the core of the framework is the concept of Synergy, which measures whether models maintain consistent capabilities across comprehension and generation, and across multiple modalities. To support this evaluation, we present General-Bench, which encompasses a broader spectrum of skills, modalities, formats, and capabilities, including over 700 tasks and 325,800 instances. The evaluation results that involve over 100 existing state-of-the-art MLLMs uncover the capability rankings of generalists, highlighting the challenges in reaching genuine AI. We expect this project to pave the way for future research on next-generation multimodal foundation models, providing a robust infrastructure to accelerate the realization of AGI. Project page: https://generalist.top/

Summary

AI-Generated Summary

PDF22May 8, 2025