ChatPaper.aiChatPaper

Création-MMBench : Évaluation de l'intelligence créative contextuelle dans les MLLM

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

March 18, 2025
Auteurs: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin
cs.AI

Résumé

La créativité est un aspect fondamental de l'intelligence, impliquant la capacité à générer des solutions novatrices et pertinentes dans divers contextes. Bien que les modèles de langage de grande taille (LLMs) aient été largement évalués pour leurs capacités créatives, l'évaluation des modèles de langage multimodaux de grande taille (MLLMs) dans ce domaine reste largement inexplorée. Pour combler cette lacune, nous introduisons Creation-MMBench, un benchmark multimodal spécialement conçu pour évaluer les capacités créatives des MLLMs dans des tâches basées sur des images et ancrées dans le monde réel. Le benchmark comprend 765 cas de test couvrant 51 tâches fines. Pour garantir une évaluation rigoureuse, nous définissons des critères d'évaluation spécifiques à chaque instance, guidant l'évaluation de la qualité générale des réponses et de leur cohérence factuelle avec les entrées visuelles. Les résultats expérimentaux révèlent que les MLLMs open-source actuels sous-performent de manière significative par rapport aux modèles propriétaires dans les tâches créatives. De plus, notre analyse démontre que l'affinage visuel peut nuire aux capacités créatives du LLM de base. Creation-MMBench offre des insights précieux pour faire progresser la créativité des MLLMs et établit une base pour les améliorations futures de l'intelligence générative multimodale. Les données complètes et le code d'évaluation sont disponibles sur https://github.com/open-compass/Creation-MMBench.
English
Creativity is a fundamental aspect of intelligence, involving the ability to generate novel and appropriate solutions across diverse contexts. While Large Language Models (LLMs) have been extensively evaluated for their creative capabilities, the assessment of Multimodal Large Language Models (MLLMs) in this domain remains largely unexplored. To address this gap, we introduce Creation-MMBench, a multimodal benchmark specifically designed to evaluate the creative capabilities of MLLMs in real-world, image-based tasks. The benchmark comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous evaluation, we define instance-specific evaluation criteria for each test case, guiding the assessment of both general response quality and factual consistency with visual inputs. Experimental results reveal that current open-source MLLMs significantly underperform compared to proprietary models in creative tasks. Furthermore, our analysis demonstrates that visual fine-tuning can negatively impact the base LLM's creative abilities. Creation-MMBench provides valuable insights for advancing MLLM creativity and establishes a foundation for future improvements in multimodal generative intelligence. Full data and evaluation code is released on https://github.com/open-compass/Creation-MMBench.

Summary

AI-Generated Summary

PDF472March 19, 2025