Creation-MMBench: Valutazione dell'Intelligenza Creativa Contestuale nei MLLM

Abstract

La creatività è un aspetto fondamentale dell'intelligenza, che coinvolge la capacità di generare soluzioni nuove e appropriate in contesti diversi. Mentre i Large Language Models (LLM) sono stati ampiamente valutati per le loro capacità creative, la valutazione dei Multimodal Large Language Models (MLLM) in questo ambito rimane largamente inesplorata. Per colmare questa lacuna, introduciamo Creation-MMBench, un benchmark multimodale progettato specificamente per valutare le capacità creative degli MLLM in compiti basati su immagini del mondo reale. Il benchmark comprende 765 casi di test che coprono 51 task dettagliati. Per garantire una valutazione rigorosa, definiamo criteri di valutazione specifici per ogni caso di test, guidando l'analisi sia della qualità generale delle risposte che della coerenza fattuale con gli input visivi. I risultati sperimentali rivelano che gli attuali MLLM open-source hanno prestazioni significativamente inferiori rispetto ai modelli proprietari nei compiti creativi. Inoltre, la nostra analisi dimostra che il fine-tuning visivo può avere un impatto negativo sulle capacità creative del LLM di base. Creation-MMBench fornisce intuizioni preziose per avanzare nella creatività degli MLLM e stabilisce una base per futuri miglioramenti nell'intelligenza generativa multimodale. I dati completi e il codice di valutazione sono disponibili su https://github.com/open-compass/Creation-MMBench.

English

Creativity is a fundamental aspect of intelligence, involving the ability to generate novel and appropriate solutions across diverse contexts. While Large Language Models (LLMs) have been extensively evaluated for their creative capabilities, the assessment of Multimodal Large Language Models (MLLMs) in this domain remains largely unexplored. To address this gap, we introduce Creation-MMBench, a multimodal benchmark specifically designed to evaluate the creative capabilities of MLLMs in real-world, image-based tasks. The benchmark comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous evaluation, we define instance-specific evaluation criteria for each test case, guiding the assessment of both general response quality and factual consistency with visual inputs. Experimental results reveal that current open-source MLLMs significantly underperform compared to proprietary models in creative tasks. Furthermore, our analysis demonstrates that visual fine-tuning can negatively impact the base LLM's creative abilities. Creation-MMBench provides valuable insights for advancing MLLM creativity and establishes a foundation for future improvements in multimodal generative intelligence. Full data and evaluation code is released on https://github.com/open-compass/Creation-MMBench.

Creation-MMBench: Valutazione dell'Intelligenza Creativa Contestuale nei MLLM

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

Abstract

Support