START: チャート理解のための空間的・テキスト的学習
START: Spatial and Textual Learning for Chart Understanding
December 8, 2025
著者: Zhuoming Liu, Xiaofeng Gao, Feiyang Niu, Qiaozi Gao, Liu Liu, Robinson Piramuthu
cs.AI
要旨
チャート理解は、科学論文や技術報告書の分析といった実世界シナリオにおいてマルチモーダル大規模言語モデル(MLLM)を展開する上で極めて重要である。自然画像とは異なり、チャートは構造化された視覚的レイアウト(空間的特性)と基盤となるデータ表現(テキスト的特性)を組み合わせたものであり、これら両方を把握することが精密で細粒度なチャート推論には不可欠である。この観察に動機づけられ、我々はチャート理解のための空間的・テキスト的学習手法であるSTARTを提案する。具体的には、(i) チャート要素のグラウンディングと (ii) チャートからコードへの生成を導入し、MLLMのチャートの視覚的レイアウトとデータ詳細の両方に対する理解を強化する。空間的・テキスト的学習を促進するため、我々は新規のデータ生成パイプラインを用いて生成したSTARTデータセットを提案する。このパイプラインでは、まずMLLMを活用して実チャート画像を実行可能なチャートコードに変換し、基盤となるデータ表現を復元すると同時に実世界のチャートの視覚的分布を保持する。次に、大規模言語モデル(LLM)を用いてコードを進化させ、チャートの視覚的構造を捉えるチャート要素の位置を確定し、既存手法では対応できない課題に対処する。モデルのチャート空間構造を理解する能力を評価するため、我々はチャート空間理解ベンチマーク(CS-Bench)を提案し、包括的なチャート理解評価における重要なギャップを埋める。空間的・テキスト的学習を活用したSTARTは、基本モデルと比較してモデルサイズやベンチマークにおいて一貫した性能向上をもたらし、従来の最先端手法を明確な差で凌駕する。コード、データ、モデルは公開予定である。
English
Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.