ChartMimic: チャートからコード生成によるLMMのクロスモーダル推論能力の評価
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
June 14, 2024
著者: Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang
cs.AI
要旨
我々は、大規模マルチモーダルモデル(LMM)の視覚的基盤に立脚したコード生成能力を評価するための新しいベンチマーク「ChartMimic」を提案する。ChartMimicは、情報量の多い視覚的チャートとテキスト指示を入力として利用し、LMMに対応するチャート描画コードの生成を要求する。ChartMimicには、物理学、計算機科学、経済学など様々な分野の科学論文に見られる実際のチャート使用例を反映した、人間がキュレーションした1,000組の(図、指示、コード)トリプレットが含まれている。これらのチャートは18の基本タイプと4つの高度なタイプに分類され、191のサブカテゴリに多様化している。さらに、出力コードとレンダリングされたチャートを自動的かつ徹底的に評価するための多段階評価指標を提案する。既存のコード生成ベンチマークとは異なり、ChartMimicは、視覚的理解、コード生成、クロスモーダル推論といった認知能力の調和を評価することに重点を置いている。3つのプロプライエタリモデルと11のオープンウェイトモデルの評価結果は、ChartMimicが提示する大きな課題を浮き彫りにしている。高度なGPT-4VやClaude-3-opusでさえ、それぞれ平均スコア73.2と53.7しか達成できておらず、改善の余地が大きいことを示している。我々は、ChartMimicがLMMの開発を刺激し、人工汎用知能の追求を進めることを期待している。
English
We introduce a new benchmark, ChartMimic, aimed at assessing the
visually-grounded code generation capabilities of large multimodal models
(LMMs). ChartMimic utilizes information-intensive visual charts and textual
instructions as inputs, requiring LMMs to generate the corresponding code for
chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction,
code) triplets, which represent the authentic chart use cases found in
scientific papers across various domains(e.g., Physics, Computer Science,
Economics, etc). These charts span 18 regular types and 4 advanced types,
diversifying into 191 subcategories. Furthermore, we propose multi-level
evaluation metrics to provide an automatic and thorough assessment of the
output code and the rendered charts. Unlike existing code generation
benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to
harmonize a blend of cognitive capabilities, encompassing visual understanding,
code generation, and cross-modal reasoning. The evaluation of 3 proprietary
models and 11 open-weight models highlights the substantial challenges posed by
ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average
score of 73.2 and 53.7, respectively, indicating significant room for
improvement. We anticipate that ChartMimic will inspire the development of
LMMs, advancing the pursuit of artificial general intelligence.Summary
AI-Generated Summary