Op weg naar een multimodale generalist: Algemeen niveau en algemene benchmark
On Path to Multimodal Generalist: General-Level and General-Bench
May 7, 2025
Auteurs: Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
cs.AI
Samenvatting
Het Multimodale Large Language Model (MLLM) ondergaat momenteel een snelle groei, aangedreven door de geavanceerde mogelijkheden van LLM's. In tegenstelling tot eerdere specialisten, evolueren bestaande MLLM's naar een Multimodale Generalist-paradigma. Aanvankelijk beperkt tot het begrijpen van meerdere modaliteiten, zijn deze modellen geavanceerd tot het niet alleen begrijpen maar ook genereren over modaliteiten heen. Hun mogelijkheden zijn uitgebreid van grofkorrelig naar fijnkorrelig multimodaal begrip en van het ondersteunen van beperkte modaliteiten naar willekeurige modaliteiten. Hoewel er veel benchmarks bestaan om MLLM's te beoordelen, rijst een kritische vraag: Kunnen we simpelweg aannemen dat hogere prestaties over taken heen wijst op een sterker MLLM-vermogen, waardoor we dichter bij AI op menselijk niveau komen? Wij stellen dat het antwoord niet zo eenvoudig is als het lijkt. Dit project introduceert General-Level, een evaluatieraamwerk dat 5-schaalniveaus van MLLM-prestaties en algemeenheid definieert, en biedt een methodologie om MLLM's te vergelijken en de voortgang van bestaande systemen te meten richting robuustere multimodale generalisten en uiteindelijk richting AGI. De kern van het raamwerk is het concept van Synergie, dat meet of modellen consistente mogelijkheden behouden over begrip en generatie heen, en over meerdere modaliteiten. Om deze evaluatie te ondersteunen, presenteren we General-Bench, dat een breder spectrum van vaardigheden, modaliteiten, formaten en mogelijkheden omvat, waaronder meer dan 700 taken en 325.800 instanties. De evaluatieresultaten waarbij meer dan 100 bestaande state-of-the-art MLLM's betrokken zijn, onthullen de vermogensrangschikking van generalisten en benadrukken de uitdagingen in het bereiken van echte AI. Wij verwachten dat dit project de weg vrijmaakt voor toekomstig onderzoek naar next-generation multimodale foundationmodellen, en een robuuste infrastructuur biedt om de realisatie van AGI te versnellen. Projectpagina: https://generalist.top/
English
The Multimodal Large Language Model (MLLM) is currently experiencing rapid
growth, driven by the advanced capabilities of LLMs. Unlike earlier
specialists, existing MLLMs are evolving towards a Multimodal Generalist
paradigm. Initially limited to understanding multiple modalities, these models
have advanced to not only comprehend but also generate across modalities. Their
capabilities have expanded from coarse-grained to fine-grained multimodal
understanding and from supporting limited modalities to arbitrary ones. While
many benchmarks exist to assess MLLMs, a critical question arises: Can we
simply assume that higher performance across tasks indicates a stronger MLLM
capability, bringing us closer to human-level AI? We argue that the answer is
not as straightforward as it seems. This project introduces General-Level, an
evaluation framework that defines 5-scale levels of MLLM performance and
generality, offering a methodology to compare MLLMs and gauge the progress of
existing systems towards more robust multimodal generalists and, ultimately,
towards AGI. At the core of the framework is the concept of Synergy, which
measures whether models maintain consistent capabilities across comprehension
and generation, and across multiple modalities. To support this evaluation, we
present General-Bench, which encompasses a broader spectrum of skills,
modalities, formats, and capabilities, including over 700 tasks and 325,800
instances. The evaluation results that involve over 100 existing
state-of-the-art MLLMs uncover the capability rankings of generalists,
highlighting the challenges in reaching genuine AI. We expect this project to
pave the way for future research on next-generation multimodal foundation
models, providing a robust infrastructure to accelerate the realization of AGI.
Project page: https://generalist.top/