No Caminho para um Generalista Multimodal: Nível Geral e Benchmark Geral
On Path to Multimodal Generalist: General-Level and General-Bench
May 7, 2025
Autores: Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
cs.AI
Resumo
O Modelo de Linguagem Multimodal de Grande Escala (MLLM, na sigla em inglês) está atualmente passando por um crescimento acelerado, impulsionado pelas capacidades avançadas dos LLMs (Modelos de Linguagem de Grande Escala). Diferente dos especialistas anteriores, os MLLMs existentes estão evoluindo em direção a um paradigma de Generalista Multimodal. Inicialmente limitados à compreensão de múltiplas modalidades, esses modelos avançaram para não apenas compreender, mas também gerar conteúdo entre modalidades. Suas capacidades se expandiram de uma compreensão multimodal de granularidade grossa para uma de granularidade fina, e de suportar modalidades limitadas para modalidades arbitrárias. Embora existam muitos benchmarks para avaliar MLLMs, uma questão crítica surge: Podemos simplesmente assumir que um desempenho superior em tarefas indica uma capacidade mais forte do MLLM, nos aproximando de uma IA de nível humano? Argumentamos que a resposta não é tão direta quanto parece. Este projeto introduz o General-Level, um framework de avaliação que define cinco níveis de escala para o desempenho e generalidade dos MLLMs, oferecendo uma metodologia para comparar MLLMs e medir o progresso dos sistemas existentes em direção a generalistas multimodais mais robustos e, finalmente, em direção à AGI (Inteligência Artificial Geral). No cerne do framework está o conceito de Sinergia, que mede se os modelos mantêm capacidades consistentes entre compreensão e geração, e entre múltiplas modalidades. Para apoiar essa avaliação, apresentamos o General-Bench, que abrange um espectro mais amplo de habilidades, modalidades, formatos e capacidades, incluindo mais de 700 tarefas e 325.800 instâncias. Os resultados da avaliação, que envolvem mais de 100 MLLMs state-of-the-art existentes, revelam as classificações de capacidade dos generalistas, destacando os desafios para alcançar uma IA genuína. Esperamos que este projeto abra caminho para pesquisas futuras sobre modelos de fundação multimodal de próxima geração, fornecendo uma infraestrutura robusta para acelerar a realização da AGI. Página do projeto: https://generalist.top/
English
The Multimodal Large Language Model (MLLM) is currently experiencing rapid
growth, driven by the advanced capabilities of LLMs. Unlike earlier
specialists, existing MLLMs are evolving towards a Multimodal Generalist
paradigm. Initially limited to understanding multiple modalities, these models
have advanced to not only comprehend but also generate across modalities. Their
capabilities have expanded from coarse-grained to fine-grained multimodal
understanding and from supporting limited modalities to arbitrary ones. While
many benchmarks exist to assess MLLMs, a critical question arises: Can we
simply assume that higher performance across tasks indicates a stronger MLLM
capability, bringing us closer to human-level AI? We argue that the answer is
not as straightforward as it seems. This project introduces General-Level, an
evaluation framework that defines 5-scale levels of MLLM performance and
generality, offering a methodology to compare MLLMs and gauge the progress of
existing systems towards more robust multimodal generalists and, ultimately,
towards AGI. At the core of the framework is the concept of Synergy, which
measures whether models maintain consistent capabilities across comprehension
and generation, and across multiple modalities. To support this evaluation, we
present General-Bench, which encompasses a broader spectrum of skills,
modalities, formats, and capabilities, including over 700 tasks and 325,800
instances. The evaluation results that involve over 100 existing
state-of-the-art MLLMs uncover the capability rankings of generalists,
highlighting the challenges in reaching genuine AI. We expect this project to
pave the way for future research on next-generation multimodal foundation
models, providing a robust infrastructure to accelerate the realization of AGI.
Project page: https://generalist.top/