Creation-MMBench: MLLMにおける文脈認識型創造的知能の評価
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM
March 18, 2025
著者: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin
cs.AI
要旨
創造性は知性の基本的な側面であり、多様な文脈において新規かつ適切な解決策を生み出す能力を含みます。大規模言語モデル(LLMs)の創造的能力については広範に評価が行われてきましたが、マルチモーダル大規模言語モデル(MLLMs)のこの領域における評価はほとんど未開拓です。このギャップを埋めるため、我々はCreation-MMBenchを導入します。これは、現実世界の画像ベースのタスクにおいてMLLMsの創造的能力を評価するために特別に設計されたマルチモーダルベンチマークです。このベンチマークは、51の細分化されたタスクにまたがる765のテストケースで構成されています。厳密な評価を確保するため、各テストケースに対してインスタンス固有の評価基準を定義し、一般的な応答品質と視覚的入力との事実的一貫性の両方を評価する指針とします。実験結果から、現在のオープンソースMLLMsは、創造的タスクにおいてプロプライエタリモデルに比べて大幅に低い性能を示すことが明らかになりました。さらに、視覚的ファインチューニングがベースLLMの創造的能力に悪影響を及ぼす可能性があることも分析により示されました。Creation-MMBenchは、MLLMsの創造性を進歩させるための貴重な洞察を提供し、マルチモーダル生成知能の将来の改善の基盤を確立します。完全なデータと評価コードはhttps://github.com/open-compass/Creation-MMBenchで公開されています。
English
Creativity is a fundamental aspect of intelligence, involving the ability to
generate novel and appropriate solutions across diverse contexts. While Large
Language Models (LLMs) have been extensively evaluated for their creative
capabilities, the assessment of Multimodal Large Language Models (MLLMs) in
this domain remains largely unexplored. To address this gap, we introduce
Creation-MMBench, a multimodal benchmark specifically designed to evaluate the
creative capabilities of MLLMs in real-world, image-based tasks. The benchmark
comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous
evaluation, we define instance-specific evaluation criteria for each test case,
guiding the assessment of both general response quality and factual consistency
with visual inputs. Experimental results reveal that current open-source MLLMs
significantly underperform compared to proprietary models in creative tasks.
Furthermore, our analysis demonstrates that visual fine-tuning can negatively
impact the base LLM's creative abilities. Creation-MMBench provides valuable
insights for advancing MLLM creativity and establishes a foundation for future
improvements in multimodal generative intelligence. Full data and evaluation
code is released on https://github.com/open-compass/Creation-MMBench.Summary
AI-Generated Summary