На пути к мультимодальному универсалу: Общий уровень и общий бенчмаркOn Path to Multimodal Generalist: General-Level and General-Bench
Мультимодальные большие языковые модели (MLLM) в настоящее время переживают стремительный рост, обусловленный передовыми возможностями языковых моделей (LLM). В отличие от более ранних специализированных решений, современные MLLM развиваются в сторону парадигмы мультимодальных универсалов. Изначально ограниченные пониманием множества модальностей, эти модели продвинулись до уровня не только понимания, но и генерации данных в различных модальностях. Их возможности расширились от грубого до детализированного мультимодального понимания и от поддержки ограниченного числа модальностей до произвольных. Хотя существует множество бенчмарков для оценки MLLM, возникает важный вопрос: можно ли просто предположить, что более высокая производительность в различных задачах указывает на более сильные возможности MLLM, приближая нас к искусственному интеллекту уровня человека? Мы утверждаем, что ответ не так прост, как кажется. Этот проект представляет General-Level — оценочную структуру, которая определяет 5 уровней производительности и универсальности MLLM, предлагая методологию для сравнения MLLM и оценки прогресса существующих систем в направлении более устойчивых мультимодальных универсалов и, в конечном итоге, к искусственному общему интеллекту (AGI). В основе структуры лежит концепция Синергии, которая измеряет, сохраняют ли модели согласованные возможности в понимании и генерации, а также в различных модальностях. Для поддержки этой оценки мы представляем General-Bench, который охватывает более широкий спектр навыков, модальностей, форматов и возможностей, включая более 700 задач и 325 800 примеров. Результаты оценки, в которой участвовало более 100 современных MLLM, раскрывают рейтинги возможностей универсалов, подчеркивая сложности достижения подлинного искусственного интеллекта. Мы ожидаем, что этот проект проложит путь для будущих исследований в области мультимодальных базовых моделей следующего поколения, предоставляя надежную инфраструктуру для ускорения реализации AGI. Страница проекта: https://generalist.top/