На пути к мультимодальному универсалу: Общий уровень и общий бенчмарк
On Path to Multimodal Generalist: General-Level and General-Bench
May 7, 2025
Авторы: Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) в настоящее время переживают стремительный рост, обусловленный передовыми возможностями языковых моделей (LLM). В отличие от более ранних специализированных решений, современные MLLM развиваются в сторону парадигмы мультимодальных универсалов. Изначально ограниченные пониманием множества модальностей, эти модели продвинулись до уровня не только понимания, но и генерации данных в различных модальностях. Их возможности расширились от грубого до детализированного мультимодального понимания и от поддержки ограниченного числа модальностей до произвольных. Хотя существует множество бенчмарков для оценки MLLM, возникает важный вопрос: можно ли просто предположить, что более высокая производительность в различных задачах указывает на более сильные возможности MLLM, приближая нас к искусственному интеллекту уровня человека? Мы утверждаем, что ответ не так прост, как кажется. Этот проект представляет General-Level — оценочную структуру, которая определяет 5 уровней производительности и универсальности MLLM, предлагая методологию для сравнения MLLM и оценки прогресса существующих систем в направлении более устойчивых мультимодальных универсалов и, в конечном итоге, к искусственному общему интеллекту (AGI). В основе структуры лежит концепция Синергии, которая измеряет, сохраняют ли модели согласованные возможности в понимании и генерации, а также в различных модальностях. Для поддержки этой оценки мы представляем General-Bench, который охватывает более широкий спектр навыков, модальностей, форматов и возможностей, включая более 700 задач и 325 800 примеров. Результаты оценки, в которой участвовало более 100 современных MLLM, раскрывают рейтинги возможностей универсалов, подчеркивая сложности достижения подлинного искусственного интеллекта. Мы ожидаем, что этот проект проложит путь для будущих исследований в области мультимодальных базовых моделей следующего поколения, предоставляя надежную инфраструктуру для ускорения реализации AGI. Страница проекта: https://generalist.top/
English
The Multimodal Large Language Model (MLLM) is currently experiencing rapid
growth, driven by the advanced capabilities of LLMs. Unlike earlier
specialists, existing MLLMs are evolving towards a Multimodal Generalist
paradigm. Initially limited to understanding multiple modalities, these models
have advanced to not only comprehend but also generate across modalities. Their
capabilities have expanded from coarse-grained to fine-grained multimodal
understanding and from supporting limited modalities to arbitrary ones. While
many benchmarks exist to assess MLLMs, a critical question arises: Can we
simply assume that higher performance across tasks indicates a stronger MLLM
capability, bringing us closer to human-level AI? We argue that the answer is
not as straightforward as it seems. This project introduces General-Level, an
evaluation framework that defines 5-scale levels of MLLM performance and
generality, offering a methodology to compare MLLMs and gauge the progress of
existing systems towards more robust multimodal generalists and, ultimately,
towards AGI. At the core of the framework is the concept of Synergy, which
measures whether models maintain consistent capabilities across comprehension
and generation, and across multiple modalities. To support this evaluation, we
present General-Bench, which encompasses a broader spectrum of skills,
modalities, formats, and capabilities, including over 700 tasks and 325,800
instances. The evaluation results that involve over 100 existing
state-of-the-art MLLMs uncover the capability rankings of generalists,
highlighting the challenges in reaching genuine AI. We expect this project to
pave the way for future research on next-generation multimodal foundation
models, providing a robust infrastructure to accelerate the realization of AGI.
Project page: https://generalist.top/Summary
AI-Generated Summary