INICIO: Aprendizaje Espacial y Textual para la Comprensión de Gráficos
START: Spatial and Textual Learning for Chart Understanding
December 8, 2025
Autores: Zhuoming Liu, Xiaofeng Gao, Feiyang Niu, Qiaozi Gao, Liu Liu, Robinson Piramuthu
cs.AI
Resumen
La comprensión de gráficos es crucial para desplegar modelos de lenguaje grandes multimodales (MLLMs) en escenarios del mundo real, como el análisis de artículos científicos e informes técnicos. A diferencia de las imágenes naturales, los gráficos combinan un diseño visual estructurado (propiedad espacial) con una representación de datos subyacente (propiedad textual); comprender ambas es esencial para un razonamiento preciso y detallado sobre gráficos. Motivados por esta observación, proponemos START, el aprendizaje Espacial y Textual para la comprensión de gRÁficos. Específicamente, introducimos (i) la localización de elementos del gráfico y (ii) la generación de código a partir del gráfico para reforzar la comprensión de un MLLM tanto del diseño visual como de los detalles de datos del gráfico. Para facilitar el aprendizaje espacial y textual, proponemos el START-Dataset, generado con un novedoso pipeline de generación de datos que primero aprovecha un MLLM para traducir imágenes reales de gráficos en código de gráfico ejecutable, recuperando la representación de datos subyacente mientras preserva la distribución visual de gráficos del mundo real. Luego, evolucionamos el código con un Modelo de Lenguaje Grande (LLM) para determinar las posiciones de los elementos del gráfico que capturan su estructura visual, abordando desafíos que los métodos existentes no pueden manejar. Para evaluar la capacidad de un modelo para entender las estructuras espaciales de los gráficos, proponemos el Benchmark de Comprensión Espacial de Gráficos (CS-Bench), llenando un vacío crítico en la evaluación integral de la comprensión de gráficos. Aprovechando el aprendizaje espacial y textual, START ofrece mejoras consistentes en todos los tamaños de modelo y benchmarks respecto a los modelos base, y supera claramente a los mejores métodos anteriores. El código, los datos y los modelos estarán disponibles públicamente.
English
Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.