ChatPaper.aiChatPaper

START: Apprendimento Spaziale e Testuale per la Comprensione dei Grafici

START: Spatial and Textual Learning for Chart Understanding

December 8, 2025
Autori: Zhuoming Liu, Xiaofeng Gao, Feiyang Niu, Qiaozi Gao, Liu Liu, Robinson Piramuthu
cs.AI

Abstract

La comprensione dei grafici è cruciale per l'implementazione di modelli linguistici multimodali di grandi dimensioni (MLLM) in scenari reali come l'analisi di articoli scientifici e report tecnici. A differenza delle immagini naturali, i grafici abbinano un layout visivo strutturato (proprietà spaziale) a una rappresentazione dati sottostante (proprietà testuale) – afferrare entrambi è essenziale per un ragionamento sui grafici preciso e granulare. Sulla base di questa osservazione, proponiamo START, l'apprendimento Spaziale e Testuale per la comprensione dei gRAfici. Nello specifico, introduciamo (i) il grounding degli elementi del grafico e (ii) la generazione di codice a partire dal grafico per potenziare la comprensione da parte di un MLLM sia del layout visivo del grafico che dei dettagli dei dati. Per facilitare l'apprendimento spaziale e testuale, proponiamo il START-Dataset, generato con una nuova pipeline di generazione dati che sfrutta prima un MLLM per tradurre immagini reali di grafici in codice grafico eseguibile, recuperando la rappresentazione dati sottostante preservando al contempo la distribuzione visiva dei grafici del mondo reale. Successivamente, evolviamo il codice con un Large Language Model (LLM) per accertare le posizioni degli elementi del grafico che catturano la struttura visiva del grafico, affrontando sfide che i metodi esistenti non possono gestire. Per valutare la capacità di un modello di comprendere le strutture spaziali dei grafici, proponiamo il Benchmark per la comprensione spaziale dei grafici (CS-Bench), colmando una lacuna critica nella valutazione completa della comprensione dei grafici. Sfruttando l'apprendimento spaziale e testuale, START fornisce miglioramenti consistenti across diverse dimensioni dei modelli e benchmark rispetto ai modelli base e supera i precedenti state-of-the-art con un margine netto. Codice, dati e modelli saranno resi pubblicamente disponibili.
English
Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.
PDF22December 22, 2025