Creation-MMBench: Оценка контекстно-зависимого творческого интеллекта в MLLM
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM
March 18, 2025
Авторы: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin
cs.AI
Аннотация
Креативность является фундаментальным аспектом интеллекта, включающим способность генерировать новые и уместные решения в различных контекстах. Хотя творческие способности крупных языковых моделей (LLM) были тщательно изучены, оценка мультимодальных крупных языковых моделей (MLLM) в этой области остается практически неисследованной. Чтобы восполнить этот пробел, мы представляем Creation-MMBench — мультимодальный бенчмарк, специально разработанный для оценки творческих способностей MLLM в реальных задачах, основанных на изображениях. Бенчмарк включает 765 тестовых случаев, охватывающих 51 детализированную задачу. Для обеспечения строгой оценки мы определяем специфичные для каждого случая критерии оценки, которые направляют анализ как общего качества ответов, так и их фактической согласованности с визуальными данными. Результаты экспериментов показывают, что современные открытые MLLM значительно уступают проприетарным моделям в творческих задачах. Кроме того, наш анализ демонстрирует, что визуальная тонкая настройка может негативно влиять на творческие способности базовой LLM. Creation-MMBench предоставляет ценные инсайты для развития креативности MLLM и закладывает основу для будущих улучшений в области мультимодального генеративного интеллекта. Полные данные и код оценки доступны на https://github.com/open-compass/Creation-MMBench.
English
Creativity is a fundamental aspect of intelligence, involving the ability to
generate novel and appropriate solutions across diverse contexts. While Large
Language Models (LLMs) have been extensively evaluated for their creative
capabilities, the assessment of Multimodal Large Language Models (MLLMs) in
this domain remains largely unexplored. To address this gap, we introduce
Creation-MMBench, a multimodal benchmark specifically designed to evaluate the
creative capabilities of MLLMs in real-world, image-based tasks. The benchmark
comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous
evaluation, we define instance-specific evaluation criteria for each test case,
guiding the assessment of both general response quality and factual consistency
with visual inputs. Experimental results reveal that current open-source MLLMs
significantly underperform compared to proprietary models in creative tasks.
Furthermore, our analysis demonstrates that visual fine-tuning can negatively
impact the base LLM's creative abilities. Creation-MMBench provides valuable
insights for advancing MLLM creativity and establishes a foundation for future
improvements in multimodal generative intelligence. Full data and evaluation
code is released on https://github.com/open-compass/Creation-MMBench.Summary
AI-Generated Summary