En el camino hacia un generalista multimodal: Nivel General y General-Bench
On Path to Multimodal Generalist: General-Level and General-Bench
May 7, 2025
Autores: Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
cs.AI
Resumen
El Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés) está experimentando actualmente un crecimiento acelerado, impulsado por las capacidades avanzadas de los LLM. A diferencia de los especialistas anteriores, los MLLM existentes están evolucionando hacia un paradigma de Generalista Multimodal. Inicialmente limitados a comprender múltiples modalidades, estos modelos han avanzado para no solo comprender, sino también generar contenido a través de modalidades. Sus capacidades se han expandido desde una comprensión multimodal de grano grueso hasta una de grano fino, y desde el soporte de modalidades limitadas hasta modalidades arbitrarias. Si bien existen muchos puntos de referencia para evaluar los MLLM, surge una pregunta crítica: ¿Podemos simplemente asumir que un mayor rendimiento en diversas tareas indica una mayor capacidad del MLLM, acercándonos a una IA de nivel humano? Argumentamos que la respuesta no es tan sencilla como parece. Este proyecto introduce General-Level, un marco de evaluación que define 5 niveles de escala en el rendimiento y la generalidad de los MLLM, ofreciendo una metodología para comparar estos modelos y medir el progreso de los sistemas existentes hacia generalistas multimodales más robustos y, en última instancia, hacia la AGI (Inteligencia Artificial General). En el núcleo del marco se encuentra el concepto de Sinergia, que mide si los modelos mantienen capacidades consistentes tanto en la comprensión como en la generación, y a través de múltiples modalidades. Para respaldar esta evaluación, presentamos General-Bench, que abarca un espectro más amplio de habilidades, modalidades, formatos y capacidades, incluyendo más de 700 tareas y 325,800 instancias. Los resultados de la evaluación, que involucran a más de 100 MLLM de última generación, revelan las clasificaciones de capacidad de los generalistas, destacando los desafíos para alcanzar una IA genuina. Esperamos que este proyecto allane el camino para futuras investigaciones sobre modelos fundacionales multimodales de próxima generación, proporcionando una infraestructura robusta para acelerar la realización de la AGI. Página del proyecto: https://generalist.top/
English
The Multimodal Large Language Model (MLLM) is currently experiencing rapid
growth, driven by the advanced capabilities of LLMs. Unlike earlier
specialists, existing MLLMs are evolving towards a Multimodal Generalist
paradigm. Initially limited to understanding multiple modalities, these models
have advanced to not only comprehend but also generate across modalities. Their
capabilities have expanded from coarse-grained to fine-grained multimodal
understanding and from supporting limited modalities to arbitrary ones. While
many benchmarks exist to assess MLLMs, a critical question arises: Can we
simply assume that higher performance across tasks indicates a stronger MLLM
capability, bringing us closer to human-level AI? We argue that the answer is
not as straightforward as it seems. This project introduces General-Level, an
evaluation framework that defines 5-scale levels of MLLM performance and
generality, offering a methodology to compare MLLMs and gauge the progress of
existing systems towards more robust multimodal generalists and, ultimately,
towards AGI. At the core of the framework is the concept of Synergy, which
measures whether models maintain consistent capabilities across comprehension
and generation, and across multiple modalities. To support this evaluation, we
present General-Bench, which encompasses a broader spectrum of skills,
modalities, formats, and capabilities, including over 700 tasks and 325,800
instances. The evaluation results that involve over 100 existing
state-of-the-art MLLMs uncover the capability rankings of generalists,
highlighting the challenges in reaching genuine AI. We expect this project to
pave the way for future research on next-generation multimodal foundation
models, providing a robust infrastructure to accelerate the realization of AGI.
Project page: https://generalist.top/Summary
AI-Generated Summary