Sul Percorso Verso un Generalista Multimodale: Livello Generale e Benchmark Generale
On Path to Multimodal Generalist: General-Level and General-Bench
May 7, 2025
Autori: Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
cs.AI
Abstract
Il Modello Linguistico Multimodale di Grande Scala (MLLM) sta attualmente vivendo una rapida crescita, trainata dalle capacità avanzate dei Modelli Linguistici di Grande Scala (LLM). A differenza dei precedenti specialisti, gli attuali MLLM si stanno evolvendo verso un paradigma di Generalista Multimodale. Inizialmente limitati alla comprensione di più modalità, questi modelli hanno progredito fino a non solo comprendere ma anche generare contenuti attraverso diverse modalità. Le loro capacità si sono ampliate da una comprensione multimodale a grana grossa a una a grana fine, e dal supporto di modalità limitate a modalità arbitrarie. Sebbene esistano molti benchmark per valutare gli MLLM, sorge una domanda cruciale: possiamo semplicemente assumere che una maggiore prestazione attraverso i compiti indichi una capacità più forte dell'MLLM, avvicinandoci all'intelligenza artificiale di livello umano? Sosteniamo che la risposta non sia così semplice come sembra. Questo progetto introduce General-Level, un framework di valutazione che definisce 5 livelli di scala per la prestazione e la generalità degli MLLM, offrendo una metodologia per confrontare gli MLLM e misurare il progresso dei sistemi esistenti verso generalisti multimodali più robusti e, in ultima analisi, verso l'AGI. Al centro del framework c'è il concetto di Sinergia, che misura se i modelli mantengono capacità consistenti attraverso la comprensione e la generazione, e attraverso più modalità. Per supportare questa valutazione, presentiamo General-Bench, che comprende uno spettro più ampio di abilità, modalità, formati e capacità, includendo oltre 700 compiti e 325.800 istanze. I risultati della valutazione che coinvolgono oltre 100 MLLM all'avanguardia rivelano le classifiche delle capacità dei generalisti, evidenziando le sfide nel raggiungere una vera intelligenza artificiale. Ci aspettiamo che questo progetto apra la strada a future ricerche sui modelli fondazionali multimodali di prossima generazione, fornendo un'infrastruttura robusta per accelerare la realizzazione dell'AGI. Pagina del progetto: https://generalist.top/
English
The Multimodal Large Language Model (MLLM) is currently experiencing rapid
growth, driven by the advanced capabilities of LLMs. Unlike earlier
specialists, existing MLLMs are evolving towards a Multimodal Generalist
paradigm. Initially limited to understanding multiple modalities, these models
have advanced to not only comprehend but also generate across modalities. Their
capabilities have expanded from coarse-grained to fine-grained multimodal
understanding and from supporting limited modalities to arbitrary ones. While
many benchmarks exist to assess MLLMs, a critical question arises: Can we
simply assume that higher performance across tasks indicates a stronger MLLM
capability, bringing us closer to human-level AI? We argue that the answer is
not as straightforward as it seems. This project introduces General-Level, an
evaluation framework that defines 5-scale levels of MLLM performance and
generality, offering a methodology to compare MLLMs and gauge the progress of
existing systems towards more robust multimodal generalists and, ultimately,
towards AGI. At the core of the framework is the concept of Synergy, which
measures whether models maintain consistent capabilities across comprehension
and generation, and across multiple modalities. To support this evaluation, we
present General-Bench, which encompasses a broader spectrum of skills,
modalities, formats, and capabilities, including over 700 tasks and 325,800
instances. The evaluation results that involve over 100 existing
state-of-the-art MLLMs uncover the capability rankings of generalists,
highlighting the challenges in reaching genuine AI. We expect this project to
pave the way for future research on next-generation multimodal foundation
models, providing a robust infrastructure to accelerate the realization of AGI.
Project page: https://generalist.top/