Creation-MMBench: Avaliando a Inteligência Criativa Contextual em MLLM
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM
March 18, 2025
Autores: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin
cs.AI
Resumo
A criatividade é um aspecto fundamental da inteligência, envolvendo a capacidade de gerar soluções novas e apropriadas em diversos contextos. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham sido amplamente avaliados quanto às suas capacidades criativas, a avaliação dos Modelos Multimodais de Linguagem de Grande Escala (MLLMs) nesse domínio permanece em grande parte inexplorada. Para abordar essa lacuna, introduzimos o Creation-MMBench, um benchmark multimodal projetado especificamente para avaliar as capacidades criativas dos MLLMs em tarefas baseadas em imagens do mundo real. O benchmark compreende 765 casos de teste abrangendo 51 tarefas detalhadas. Para garantir uma avaliação rigorosa, definimos critérios de avaliação específicos para cada caso de teste, orientando a avaliação tanto da qualidade geral das respostas quanto da consistência factual com as entradas visuais. Os resultados experimentais revelam que os MLLMs de código aberto atuais têm um desempenho significativamente inferior em comparação com os modelos proprietários em tarefas criativas. Além disso, nossa análise demonstra que o ajuste fino visual pode impactar negativamente as habilidades criativas do LLM base. O Creation-MMBench fornece insights valiosos para o avanço da criatividade dos MLLMs e estabelece uma base para futuras melhorias na inteligência generativa multimodal. Os dados completos e o código de avaliação estão disponíveis em https://github.com/open-compass/Creation-MMBench.
English
Creativity is a fundamental aspect of intelligence, involving the ability to
generate novel and appropriate solutions across diverse contexts. While Large
Language Models (LLMs) have been extensively evaluated for their creative
capabilities, the assessment of Multimodal Large Language Models (MLLMs) in
this domain remains largely unexplored. To address this gap, we introduce
Creation-MMBench, a multimodal benchmark specifically designed to evaluate the
creative capabilities of MLLMs in real-world, image-based tasks. The benchmark
comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous
evaluation, we define instance-specific evaluation criteria for each test case,
guiding the assessment of both general response quality and factual consistency
with visual inputs. Experimental results reveal that current open-source MLLMs
significantly underperform compared to proprietary models in creative tasks.
Furthermore, our analysis demonstrates that visual fine-tuning can negatively
impact the base LLM's creative abilities. Creation-MMBench provides valuable
insights for advancing MLLM creativity and establishes a foundation for future
improvements in multimodal generative intelligence. Full data and evaluation
code is released on https://github.com/open-compass/Creation-MMBench.Summary
AI-Generated Summary