ChatPaper.aiChatPaper

START : Apprentissage Spatial et Textuel pour la Compréhension de Graphiques

START: Spatial and Textual Learning for Chart Understanding

December 8, 2025
papers.authors: Zhuoming Liu, Xiaofeng Gao, Feiyang Niu, Qiaozi Gao, Liu Liu, Robinson Piramuthu
cs.AI

papers.abstract

La compréhension des graphiques est cruciale pour le déploiement des modèles de langage multimodaux de grande taille (MLLM) dans des scénarios réels, tels que l'analyse d'articles scientifiques et de rapports techniques. Contrairement aux images naturelles, les graphiques associent une disposition visuelle structurée (propriété spatiale) à une représentation de données sous-jacente (propriété textuelle) — la compréhension des deux est essentielle pour un raisonnement précis et granulaire sur les graphiques. Motivés par cette observation, nous proposons START, l'apprentissage Spatial et Textuel pour la compréhension des gRAPhiques. Plus précisément, nous introduisons (i) le grounding des éléments du graphique et (ii) la génération de code à partir du graphique pour renforcer la compréhension par un MLLM à la fois de la disposition visuelle et des détails des données du graphique. Pour faciliter l'apprentissage spatial et textuel, nous proposons le START-Dataset, généré grâce à un nouveau pipeline de génération de données qui exploite d'abord un MLLM pour traduire des images réelles de graphiques en code de graphique exécutable, restaurant ainsi la représentation des données sous-jacentes tout en préservant la distribution visuelle des graphiques du monde réel. Nous faisons ensuite évoluer le code à l'aide d'un modèle de langage de grande taille (LLM) pour déterminer les positions des éléments du graphique qui capturent sa structure visuelle, relevant ainsi des défis que les méthodes existantes ne peuvent pas traiter. Pour évaluer la capacité d'un modèle à comprendre les structures spatiales des graphiques, nous proposons le Benchmark de compréhension spatiale des graphiques (CS-Bench), comblant une lacune critique dans l'évaluation complète de la compréhension des graphiques. Tirant parti de l'apprentissage spatial et textuel, START offre des gains constants par rapport aux modèles de base, quelle que soit leur taille ou le benchmark utilisé, et surpasse nettement les précédents modèles de l'état de l'art. Le code, les données et les modèles seront rendus publics.
English
Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.
PDF22December 17, 2025