ChatPaper.aiChatPaper

START: Räumliches und textuelles Lernen für das Verständnis von Diagrammen

START: Spatial and Textual Learning for Chart Understanding

December 8, 2025
papers.authors: Zhuoming Liu, Xiaofeng Gao, Feiyang Niu, Qiaozi Gao, Liu Liu, Robinson Piramuthu
cs.AI

papers.abstract

Das Verständnis von Diagrammen ist entscheidend für den Einsatz multimodaler großer Sprachmodelle (MLLMs) in realen Anwendungsszenarien wie der Analyse wissenschaftlicher Publikationen und technischer Berichte. Im Gegensatz zu natürlichen Bildern kombinieren Diagramme ein strukturiertes visuelles Layout (räumliche Eigenschaft) mit einer zugrundeliegenden Datenrepräsentation (textuelle Eigenschaft) – das Erfassen beider Aspekte ist für präzises, feingranulares Diagrammverständnis unerlässlich. Ausgehend von dieser Beobachtung schlagen wir START vor: Spatial and Textual learning for chART understanding. Konkret führen wir (i) Diagramm-Element-Lokalisierung und (ii) Diagramm-zu-Code-Generierung ein, um das Verständnis eines MLLMs für sowohl das visuelle Layout als auch die Datendetails von Diagrammen zu stärken. Um räumliches und textuelles Lernen zu ermöglichen, entwickeln wir den START-Datensatz mittels einer neuartigen Datengenerierungspipeline, die zunächst ein MLLM nutzt, um echte Diagrammbilder in ausführbaren Diagrammcode zu übersetzen. Dies stellt die zugrundeliegende Datenrepräsentation wieder her und bewahrt gleichzeitig die visuelle Verteilung realer Diagramme. Anschließend wird der Code mit einem großen Sprachmodell (LLM) weiterentwickelt, um die Positionen von Diagrammelementen zu bestimmen, die die visuelle Struktur des Diagramms erfassen. Dieser Ansatz adressiert Herausforderungen, die bestehende Methoden nicht bewältigen können. Um die Fähigkeit eines Modells zur Erfassung räumlicher Diagrammstrukturen zu evaluieren, schlagen wir den Chart Spatial Understanding Benchmark (CS-Bench) vor, der eine kritische Lücke in der umfassenden Bewertung des Diagrammverständnisses schließt. Durch die Nutzung räumlichen und textuellen Lernens erzielt START konsistente Verbesserungen über Modellgrößen und Benchmarks hinweg gegenüber den Basismodellen und übertrifft vorherige State-of-the-Art-Verfahren mit deutlichem Abstand. Code, Daten und Modelle werden öffentlich verfügbar sein.
English
Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.
PDF22December 17, 2025