Creation-MMBench: Evaluación de la Inteligencia Creativa Consciente del Contexto en MLLM
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM
March 18, 2025
Autores: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin
cs.AI
Resumen
La creatividad es un aspecto fundamental de la inteligencia, que implica la capacidad de generar soluciones novedosas y apropiadas en diversos contextos. Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han sido ampliamente evaluados en cuanto a sus capacidades creativas, la evaluación de los Modelos Multimodales de Lenguaje de Gran Escala (MLLMs) en este ámbito sigue siendo en gran medida inexplorada. Para abordar esta brecha, presentamos Creation-MMBench, un benchmark multimodal diseñado específicamente para evaluar las capacidades creativas de los MLLMs en tareas del mundo real basadas en imágenes. El benchmark comprende 765 casos de prueba que abarcan 51 tareas detalladas. Para garantizar una evaluación rigurosa, definimos criterios de evaluación específicos para cada caso de prueba, guiando la valoración tanto de la calidad general de las respuestas como de la consistencia factual con las entradas visuales. Los resultados experimentales revelan que los MLLMs de código abierto actuales tienen un rendimiento significativamente inferior en comparación con los modelos propietarios en tareas creativas. Además, nuestro análisis demuestra que el ajuste fino visual puede afectar negativamente las habilidades creativas del LLM base. Creation-MMBench proporciona insights valiosos para avanzar en la creatividad de los MLLMs y establece una base para futuras mejoras en la inteligencia generativa multimodal. Los datos completos y el código de evaluación están disponibles en https://github.com/open-compass/Creation-MMBench.
English
Creativity is a fundamental aspect of intelligence, involving the ability to
generate novel and appropriate solutions across diverse contexts. While Large
Language Models (LLMs) have been extensively evaluated for their creative
capabilities, the assessment of Multimodal Large Language Models (MLLMs) in
this domain remains largely unexplored. To address this gap, we introduce
Creation-MMBench, a multimodal benchmark specifically designed to evaluate the
creative capabilities of MLLMs in real-world, image-based tasks. The benchmark
comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous
evaluation, we define instance-specific evaluation criteria for each test case,
guiding the assessment of both general response quality and factual consistency
with visual inputs. Experimental results reveal that current open-source MLLMs
significantly underperform compared to proprietary models in creative tasks.
Furthermore, our analysis demonstrates that visual fine-tuning can negatively
impact the base LLM's creative abilities. Creation-MMBench provides valuable
insights for advancing MLLM creativity and establishes a foundation for future
improvements in multimodal generative intelligence. Full data and evaluation
code is released on https://github.com/open-compass/Creation-MMBench.Summary
AI-Generated Summary