チャートからコードへ:マルチモーダルモデルのための階層的ベンチマーク
From Charts to Code: A Hierarchical Benchmark for Multimodal Models
October 20, 2025
著者: Jiahao Tang, Henry Hengyuan Zhao, Lijian Wu, Yifei Tao, Dongxing Mao, Yang Wan, Jingru Tan, Min Zeng, Min Li, Alex Jinpeng Wang
cs.AI
要旨
本論文では、大規模マルチモーダルモデル(LMMs)のチャート理解およびコード生成能力を評価するための新しいベンチマーク「Chart2Code」を紹介する。Chart2Codeは、ユーザー主導の視点から明示的に設計されており、多様な実世界のシナリオを捉え、タスクの難易度を段階的に増加させる。このベンチマークは3つのレベルで構成される:レベル1(チャート再現)は、参照図とユーザークエリに基づいてチャートを再現する;レベル2(チャート編集)は、チャートタイプの変更や要素の追加といった複雑な修正を含む;レベル3(長い表からチャート生成)は、情報密度の高い長い表をユーザーの指示に従って忠実なチャートに変換することを要求する。我々の知る限り、これは実用的なchart2codeの使用を反映しつつ、タスクの複雑さを体系的にスケーリングする初の階層型ベンチマークである。Chart2Codeは、22種類のチャートタイプにわたる2,023のタスクを含み、コードの正確性とレンダリングされたチャートの視覚的忠実度を評価する多段階の評価指標と組み合わされている。我々は、GPT-5、Qwen2.5-VL、InternVL3/3.5、MiMo-VL、Seed-1.6-VLといったプロプライエタリおよび最新のオープンソースモデルを含む25の最先端(SoTA)LMMsをベンチマークした。実験結果は、SoTAモデルであるGPT-5でさえ、編集タスク全体におけるコードベースの評価で平均0.57、チャート品質評価で平均0.22しか得られないことを示しており、Chart2Codeの難易度の高さを浮き彫りにしている。我々は、このベンチマークがマルチモーダル推論の進展を促進し、より堅牢で汎用的なLMMsの開発を促すことを期待している。我々のコードとデータはChart2Codeで公開されている。
English
We introduce Chart2Code, a new benchmark for evaluating the chart
understanding and code generation capabilities of large multimodal models
(LMMs). Chart2Code is explicitly designed from a user-driven perspective,
capturing diverse real-world scenarios and progressively increasing task
difficulty. It consists of three levels: Level 1 (Chart Reproduction)
reproduces charts from a reference figure and user query; Level 2 (Chart
Editing) involves complex modifications such as changing chart types or adding
elements; and Level 3 (Long-Table to Chart Generation) requires models to
transform long, information-dense tables into faithful charts following user
instructions. To our knowledge, this is the first hierarchical benchmark that
reflects practical chart2code usage while systematically scaling task
complexity. In total, Chart2Code contains 2,023 tasks across 22 chart types,
paired with multi-level evaluation metrics that assess both code correctness
and the visual fidelity of rendered charts. We benchmark 25 state-of-the-art
(SoTA) LMMs, including both proprietary and the latest open-source models such
as GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL, and Seed-1.6-VL. Experimental
results demonstrate that even the SoTA model GPT-5 averages only 0.57 on
code-based evaluation and 0.22 on chart-quality assessment across the editing
tasks, underscoring the difficulty of Chart2Code. We anticipate this benchmark
will drive advances in multimodal reasoning and foster the development of more
robust and general-purpose LMMs. Our code and data are available on Chart2Code.