START: 공간 및 텍스트 학습 기반 차트 이해
START: Spatial and Textual Learning for Chart Understanding
December 8, 2025
저자: Zhuoming Liu, Xiaofeng Gao, Feiyang Niu, Qiaozi Gao, Liu Liu, Robinson Piramuthu
cs.AI
초록
차트 이해는 과학 논문 및 기술 보고서 분석과 같은 실제 현장에 멀티모달 대규모 언어 모델(MLLM)을 적용하는 데 핵심적입니다. 자연 이미지와 달리 차트는 구조화된 시각적 레이아웃(공간적 속성)과 기반 데이터 표현(텍스트적 속성)을 결합하고 있으며, 정밀하고 세분화된 차트 추론을 위해서는 이 둘 모두를 파악하는 것이 필수적입니다. 이러한 관찰에 기반하여, 우리는 공간 및 텍스트 학습을 통한 차트 이해 방법론인 START를 제안합니다. 구체적으로, (i) 차트 요소 기반 위치 추적과 (ii) 차트-코드 변환 생성을 도입하여 MLLM의 차트 시각 레이아웃 및 데이터 세부사항 이해를 강화합니다. 공간 및 텍스트 학습을 지원하기 위해, 우리는 새로운 데이터 생성 파이프라인으로 생성된 START 데이터셋을 제안합니다. 이 파이프라인은 먼저 실제 차트 이미지를 실행 가능한 차트 코드로 변환하기 위해 MLLM을 활용하여 기반 데이터 표현을 복원함과 동시에 실제 차트의 시각적 분포를 보존합니다. 그런 다음 대규모 언어 모델(LLM)을 사용하여 코드를 발전시켜 차트의 시각적 구조를 포착하는 차트 요소들의 위치를 확인하며, 기존 방법이 처리하지 못하는 문제를 해결합니다. 모델의 차트 공간 구조 이해 능력을 평가하기 위해 우리는 Chart Spatial understanding Benchmark(CS-Bench)를 제안하며, 이는 포괄적인 차트 이해 평가에서 중요한 공백을 메꿉니다. 공간 및 텍스트 학습을 활용한 START는 기본 모델 대비 다양한 모델 크기와 벤치마크에서 지속적인 성능 향상을 보여주며, 기존 최첨단 기술을 명확한 차이로 능가합니다. 코드, 데이터 및 모델은 공개될 예정입니다.
English
Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.