ChatPaper.aiChatPaper

Creation-MMBench: MLLM에서의 상황 인식 창의적 지능 평가

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

March 18, 2025
저자: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin
cs.AI

초록

창의성은 다양한 맥락에서 새롭고 적절한 해결책을 생성할 수 있는 능력을 포함하는 지능의 근본적인 측면입니다. 대형 언어 모델(LLMs)의 창의적 능력은 광범위하게 평가되어 왔지만, 다중모달 대형 언어 모델(MLLMs)의 창의성 평가는 아직 크게 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 실제 세계의 이미지 기반 작업에서 MLLMs의 창의적 능력을 평가하기 위해 특별히 설계된 다중모달 벤치마크인 Creation-MMBench를 소개합니다. 이 벤치마크는 51개의 세분화된 작업에 걸친 765개의 테스트 케이스로 구성되어 있습니다. 엄격한 평가를 보장하기 위해, 각 테스트 케이스에 대해 인스턴스별 평가 기준을 정의하여 일반적인 응답 품질과 시각적 입력과의 사실적 일관성을 평가하는 가이드를 제공합니다. 실험 결과, 현재의 오픈소스 MLLMs는 창의적 작업에서 독점 모델에 비해 크게 뒤처지는 것으로 나타났습니다. 또한, 우리의 분석은 시각적 미세 조정이 기본 LLM의 창의적 능력에 부정적인 영향을 미칠 수 있음을 보여줍니다. Creation-MMBench는 MLLM 창의성 발전을 위한 귀중한 통찰을 제공하며, 다중모달 생성 지능의 미래 개선을 위한 기반을 마련합니다. 전체 데이터와 평가 코드는 https://github.com/open-compass/Creation-MMBench에서 공개되었습니다.
English
Creativity is a fundamental aspect of intelligence, involving the ability to generate novel and appropriate solutions across diverse contexts. While Large Language Models (LLMs) have been extensively evaluated for their creative capabilities, the assessment of Multimodal Large Language Models (MLLMs) in this domain remains largely unexplored. To address this gap, we introduce Creation-MMBench, a multimodal benchmark specifically designed to evaluate the creative capabilities of MLLMs in real-world, image-based tasks. The benchmark comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous evaluation, we define instance-specific evaluation criteria for each test case, guiding the assessment of both general response quality and factual consistency with visual inputs. Experimental results reveal that current open-source MLLMs significantly underperform compared to proprietary models in creative tasks. Furthermore, our analysis demonstrates that visual fine-tuning can negatively impact the base LLM's creative abilities. Creation-MMBench provides valuable insights for advancing MLLM creativity and establishes a foundation for future improvements in multimodal generative intelligence. Full data and evaluation code is released on https://github.com/open-compass/Creation-MMBench.

Summary

AI-Generated Summary

PDF472March 19, 2025