Creation-MMBench: Valutazione dell'Intelligenza Creativa Contestuale nei MLLM
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM
March 18, 2025
Autori: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin
cs.AI
Abstract
La creatività è un aspetto fondamentale dell'intelligenza, che coinvolge la capacità di generare soluzioni nuove e appropriate in contesti diversi. Mentre i Large Language Models (LLM) sono stati ampiamente valutati per le loro capacità creative, la valutazione dei Multimodal Large Language Models (MLLM) in questo ambito rimane largamente inesplorata. Per colmare questa lacuna, introduciamo Creation-MMBench, un benchmark multimodale progettato specificamente per valutare le capacità creative degli MLLM in compiti basati su immagini del mondo reale. Il benchmark comprende 765 casi di test che coprono 51 task dettagliati. Per garantire una valutazione rigorosa, definiamo criteri di valutazione specifici per ogni caso di test, guidando l'analisi sia della qualità generale delle risposte che della coerenza fattuale con gli input visivi. I risultati sperimentali rivelano che gli attuali MLLM open-source hanno prestazioni significativamente inferiori rispetto ai modelli proprietari nei compiti creativi. Inoltre, la nostra analisi dimostra che il fine-tuning visivo può avere un impatto negativo sulle capacità creative del LLM di base. Creation-MMBench fornisce intuizioni preziose per avanzare nella creatività degli MLLM e stabilisce una base per futuri miglioramenti nell'intelligenza generativa multimodale. I dati completi e il codice di valutazione sono disponibili su https://github.com/open-compass/Creation-MMBench.
English
Creativity is a fundamental aspect of intelligence, involving the ability to
generate novel and appropriate solutions across diverse contexts. While Large
Language Models (LLMs) have been extensively evaluated for their creative
capabilities, the assessment of Multimodal Large Language Models (MLLMs) in
this domain remains largely unexplored. To address this gap, we introduce
Creation-MMBench, a multimodal benchmark specifically designed to evaluate the
creative capabilities of MLLMs in real-world, image-based tasks. The benchmark
comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous
evaluation, we define instance-specific evaluation criteria for each test case,
guiding the assessment of both general response quality and factual consistency
with visual inputs. Experimental results reveal that current open-source MLLMs
significantly underperform compared to proprietary models in creative tasks.
Furthermore, our analysis demonstrates that visual fine-tuning can negatively
impact the base LLM's creative abilities. Creation-MMBench provides valuable
insights for advancing MLLM creativity and establishes a foundation for future
improvements in multimodal generative intelligence. Full data and evaluation
code is released on https://github.com/open-compass/Creation-MMBench.