Creation-MMBench: Evaluatie van Contextbewuste Creatieve Intelligentie in MLLM
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM
March 18, 2025
Auteurs: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin
cs.AI
Samenvatting
Creativiteit is een fundamenteel aspect van intelligentie, waarbij het vermogen om nieuwe en passende oplossingen te genereren in diverse contexten centraal staat. Hoewel Large Language Models (LLMs) uitgebreid zijn geëvalueerd op hun creatieve capaciteiten, blijft de beoordeling van Multimodal Large Language Models (MLLMs) op dit gebied grotendeels onontgonnen. Om deze leemte aan te pakken, introduceren we Creation-MMBench, een multimodale benchmark die specifiek is ontworpen om de creatieve mogelijkheden van MLLMs te evalueren in realistische, beeldgebaseerde taken. De benchmark omvat 765 testgevallen verdeeld over 51 gedetailleerde taken. Om een rigoureuze evaluatie te waarborgen, definiëren we voor elk testgeval specifieke evaluatiecriteria die de beoordeling van zowel de algemene responskwaliteit als de feitelijke consistentie met visuele input sturen. Experimentele resultaten tonen aan dat huidige open-source MLLMs aanzienlijk onderpresteren in vergelijking met propriëtaire modellen bij creatieve taken. Bovendien laat onze analyse zien dat visuele fine-tuning een negatieve impact kan hebben op de creatieve vaardigheden van het basis-LLM. Creation-MMBench biedt waardevolle inzichten voor het bevorderen van MLLM-creativiteit en legt een basis voor toekomstige verbeteringen in multimodale generatieve intelligentie. Volledige data en evaluatiecode zijn vrijgegeven op https://github.com/open-compass/Creation-MMBench.
English
Creativity is a fundamental aspect of intelligence, involving the ability to
generate novel and appropriate solutions across diverse contexts. While Large
Language Models (LLMs) have been extensively evaluated for their creative
capabilities, the assessment of Multimodal Large Language Models (MLLMs) in
this domain remains largely unexplored. To address this gap, we introduce
Creation-MMBench, a multimodal benchmark specifically designed to evaluate the
creative capabilities of MLLMs in real-world, image-based tasks. The benchmark
comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous
evaluation, we define instance-specific evaluation criteria for each test case,
guiding the assessment of both general response quality and factual consistency
with visual inputs. Experimental results reveal that current open-source MLLMs
significantly underperform compared to proprietary models in creative tasks.
Furthermore, our analysis demonstrates that visual fine-tuning can negatively
impact the base LLM's creative abilities. Creation-MMBench provides valuable
insights for advancing MLLM creativity and establishes a foundation for future
improvements in multimodal generative intelligence. Full data and evaluation
code is released on https://github.com/open-compass/Creation-MMBench.Summary
AI-Generated Summary