ChatPaper.aiChatPaper

Sul Percorso Verso un Generalista Multimodale: Livello Generale e Benchmark Generale

On Path to Multimodal Generalist: General-Level and General-Bench

May 7, 2025
Autori: Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
cs.AI

Abstract

Il Modello Linguistico Multimodale di Grande Scala (MLLM) sta attualmente vivendo una rapida crescita, trainata dalle capacità avanzate dei Modelli Linguistici di Grande Scala (LLM). A differenza dei precedenti specialisti, gli attuali MLLM si stanno evolvendo verso un paradigma di Generalista Multimodale. Inizialmente limitati alla comprensione di più modalità, questi modelli hanno progredito fino a non solo comprendere ma anche generare contenuti attraverso diverse modalità. Le loro capacità si sono ampliate da una comprensione multimodale a grana grossa a una a grana fine, e dal supporto di modalità limitate a modalità arbitrarie. Sebbene esistano molti benchmark per valutare gli MLLM, sorge una domanda cruciale: possiamo semplicemente assumere che una maggiore prestazione attraverso i compiti indichi una capacità più forte dell'MLLM, avvicinandoci all'intelligenza artificiale di livello umano? Sosteniamo che la risposta non sia così semplice come sembra. Questo progetto introduce General-Level, un framework di valutazione che definisce 5 livelli di scala per la prestazione e la generalità degli MLLM, offrendo una metodologia per confrontare gli MLLM e misurare il progresso dei sistemi esistenti verso generalisti multimodali più robusti e, in ultima analisi, verso l'AGI. Al centro del framework c'è il concetto di Sinergia, che misura se i modelli mantengono capacità consistenti attraverso la comprensione e la generazione, e attraverso più modalità. Per supportare questa valutazione, presentiamo General-Bench, che comprende uno spettro più ampio di abilità, modalità, formati e capacità, includendo oltre 700 compiti e 325.800 istanze. I risultati della valutazione che coinvolgono oltre 100 MLLM all'avanguardia rivelano le classifiche delle capacità dei generalisti, evidenziando le sfide nel raggiungere una vera intelligenza artificiale. Ci aspettiamo che questo progetto apra la strada a future ricerche sui modelli fondazionali multimodali di prossima generazione, fornendo un'infrastruttura robusta per accelerare la realizzazione dell'AGI. Pagina del progetto: https://generalist.top/
English
The Multimodal Large Language Model (MLLM) is currently experiencing rapid growth, driven by the advanced capabilities of LLMs. Unlike earlier specialists, existing MLLMs are evolving towards a Multimodal Generalist paradigm. Initially limited to understanding multiple modalities, these models have advanced to not only comprehend but also generate across modalities. Their capabilities have expanded from coarse-grained to fine-grained multimodal understanding and from supporting limited modalities to arbitrary ones. While many benchmarks exist to assess MLLMs, a critical question arises: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI? We argue that the answer is not as straightforward as it seems. This project introduces General-Level, an evaluation framework that defines 5-scale levels of MLLM performance and generality, offering a methodology to compare MLLMs and gauge the progress of existing systems towards more robust multimodal generalists and, ultimately, towards AGI. At the core of the framework is the concept of Synergy, which measures whether models maintain consistent capabilities across comprehension and generation, and across multiple modalities. To support this evaluation, we present General-Bench, which encompasses a broader spectrum of skills, modalities, formats, and capabilities, including over 700 tasks and 325,800 instances. The evaluation results that involve over 100 existing state-of-the-art MLLMs uncover the capability rankings of generalists, highlighting the challenges in reaching genuine AI. We expect this project to pave the way for future research on next-generation multimodal foundation models, providing a robust infrastructure to accelerate the realization of AGI. Project page: https://generalist.top/
PDF22May 8, 2025