ChartMimic: 차트-코드 생성을 통해 LMM의 교차 모달 추론 능력 평가
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
June 14, 2024
저자: Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang
cs.AI
초록
우리는 대규모 멀티모달 모델(LMM)의 시각적 기반 코드 생성 능력을 평가하기 위한 새로운 벤치마크인 ChartMimic을 소개한다. ChartMimic은 정보 집약적인 시각적 차트와 텍스트 지침을 입력으로 활용하여, LMM이 차트 렌더링을 위한 해당 코드를 생성하도록 요구한다. ChartMimic은 물리학, 컴퓨터 과학, 경제학 등 다양한 분야의 과학 논문에서 발견되는 실제 차트 사용 사례를 대표하는 1,000개의 인간이 선별한 (그림, 지침, 코드) 삼중항을 포함한다. 이러한 차트는 18개의 일반 유형과 4개의 고급 유형으로 구성되며, 191개의 하위 범주로 다양화된다. 또한, 출력 코드와 렌더링된 차트를 자동적이고 철저하게 평가하기 위해 다단계 평가 지표를 제안한다. 기존의 코드 생성 벤치마크와 달리, ChartMimic은 시각적 이해, 코드 생성, 그리고 크로스모달 추론을 포함한 인지 능력의 조화를 평가하는 데 중점을 둔다. 3개의 독점 모델과 11개의 오픈 웨이트 모델에 대한 평가는 ChartMimic이 제기하는 상당한 도전을 강조한다. 고급 모델인 GPT-4V와 Claude-3-opus조차도 각각 평균 점수 73.2와 53.7을 달성하여, 개선의 여지가 크다는 것을 보여준다. 우리는 ChartMimic이 LMM의 개발을 촉진하고, 인공 일반 지능의 추구를 진전시킬 것으로 기대한다.
English
We introduce a new benchmark, ChartMimic, aimed at assessing the
visually-grounded code generation capabilities of large multimodal models
(LMMs). ChartMimic utilizes information-intensive visual charts and textual
instructions as inputs, requiring LMMs to generate the corresponding code for
chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction,
code) triplets, which represent the authentic chart use cases found in
scientific papers across various domains(e.g., Physics, Computer Science,
Economics, etc). These charts span 18 regular types and 4 advanced types,
diversifying into 191 subcategories. Furthermore, we propose multi-level
evaluation metrics to provide an automatic and thorough assessment of the
output code and the rendered charts. Unlike existing code generation
benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to
harmonize a blend of cognitive capabilities, encompassing visual understanding,
code generation, and cross-modal reasoning. The evaluation of 3 proprietary
models and 11 open-weight models highlights the substantial challenges posed by
ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average
score of 73.2 and 53.7, respectively, indicating significant room for
improvement. We anticipate that ChartMimic will inspire the development of
LMMs, advancing the pursuit of artificial general intelligence.Summary
AI-Generated Summary