ChatPaper.aiChatPaper

START: Пространственное и текстовое обучение для понимания диаграмм

START: Spatial and Textual Learning for Chart Understanding

December 8, 2025
Авторы: Zhuoming Liu, Xiaofeng Gao, Feiyang Niu, Qiaozi Gao, Liu Liu, Robinson Piramuthu
cs.AI

Аннотация

Понимание диаграмм играет ключевую роль при внедрении мультимодальных больших языковых моделей (МБЯМ) в реальные сценарии, такие как анализ научных статей и технических отчетов. В отличие от натуральных изображений, диаграммы сочетают структурированное визуальное расположение (пространственное свойство) с лежащим в основе представлением данных (текстовое свойство) — понимание обоих аспектов необходимо для точного, детализированного анализа диаграмм. Руководствуясь этим наблюдением, мы предлагаем START (Spatial and Textual learning for chART understanding) — подход к пониманию диаграмм через пространственное и текстовое обучение. В частности, мы вводим (i) привязку элементов диаграммы и (ii) генерацию кода по диаграмме для усиления понимания МБЯМ как визуальной структуры диаграммы, так и деталей данных. Для облегчения пространственного и текстового обучения мы предлагаем START-Dataset, сгенерированный с помощью нового конвейера создания данных, который сначала использует МБЯМ для преобразования реальных изображений диаграмм в исполняемый код диаграмм, восстанавливая исходное представление данных при сохранении визуального распределения реальных диаграмм. Затем мы модифицируем код с помощью большой языковой модели (БЯМ), чтобы определить позиции элементов диаграммы, которые отражают её визуальную структуру, решая задачи, недоступные для существующих методов. Для оценки способности модели понимать пространственные структуры диаграмм мы предлагаем эталонный тест Chart Spatial understanding Benchmark (CS-Bench), заполняющий критический пробел в комплексной оценке понимания диаграмм. Благодаря пространственному и текстовому обучению START демонстрирует стабильное улучшение результатов по сравнению с базовыми моделями для различных размеров моделей и наборов данных и значительно превосходит предыдущие state-of-the-art методы. Код, данные и модели будут общедоступны.
English
Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.
PDF22December 17, 2025