ChatPaper.aiChatPaper

START: Ruimtelijk en Tekstueel Leren voor Grafiekbegrip

START: Spatial and Textual Learning for Chart Understanding

December 8, 2025
Auteurs: Zhuoming Liu, Xiaofeng Gao, Feiyang Niu, Qiaozi Gao, Liu Liu, Robinson Piramuthu
cs.AI

Samenvatting

Grafiekbegrip is cruciaal voor de inzet van multimodale grote taalmodellen (MLLM's) in realistische scenario's, zoals het analyseren van wetenschappelijke artikelen en technische rapporten. In tegenstelling tot natuurlijke afbeeldingen combineren grafieken een gestructureerde visuele lay-out (spatiële eigenschap) met een onderliggende datarepresentatie (tekstuele eigenschap) – het begrijpen van beide is essentieel voor precieze, fijnmazige grafiekredenering. Gemotiveerd door dit inzicht stellen we START voor, Spatial and Textual learning for chART understanding. Concreet introduceren we (i) grafiekelement-gronding en (ii) grafiek-naar-code generatie om het begrip van een MLLM voor zowel de visuele lay-out als de datadetails van grafieken te versterken. Om spatieel en tekstueel leren te faciliteren, stellen we de START-Dataset voor, gegenereerd met een nieuwe data-generatiepijplijn die eerst een MLLM inzet om echte grafiekafbeeldingen te vertalen naar uitvoerbare grafiekcode, waardoor de onderliggende datarepresentatie wordt hersteld terwijl de visuele distributie van real-world grafieken behouden blijft. Vervolgens evolueren we de code met een Large Language Model (LLM) om de posities van grafiekelementen die de visuele structuur van de grafiek vastleggen te bepalen, waardoor uitdagingen worden aangepakt die bestaande methoden niet aankunnen. Om het vermogen van een model om grafiekspatiale structuren te begrijpen te evalueren, stellen we de Chart Spatial understanding Benchmark (CS-Bench) voor, waarmee een kritieke leemte in de uitgebreide evaluatie van grafiekbegrip wordt opgevuld. Door gebruik te maken van spatieel en tekstueel leren behaalt START consistente verbeteringen across modelgroottes en benchmarks ten opzichte van de basismodellen en overtreft het eerdere state-of-the-art met een duidelijke marge. Code, data en modellen zullen openbaar beschikbaar worden gesteld.
English
Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.
PDF22December 22, 2025