Визуальная программируемость: Руководство по подходу "код-как-мысль" в понимании диаграмм
Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
September 11, 2025
Авторы: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI
Аннотация
Понимание графиков представляет собой важный тест для способностей к рассуждению у моделей, объединяющих зрение и язык (Vision-Language Models, VLMs). Существующие подходы имеют существенные ограничения: некоторые полагаются на внешние инструменты, что делает их ненадежными и ограниченными предопределенным набором инструментов, в то время как другие используют специализированные модели, которые часто применяют единственную стратегию рассуждений, например, текстовую цепочку мыслей (chain-of-thought, CoT). Промежуточные этапы текстовых рассуждений сложно проверить, что затрудняет использование сигналов обучения с подкреплением, направленных на вознаграждение за фактическую точность. Чтобы решить эту проблему, мы предлагаем подход "Код как Мысль" (Code-as-Thought, CaT), который представляет визуальную информацию графика в проверяемом, символическом формате. Наше ключевое наблюдение заключается в том, что эта стратегия должна быть адаптивной: фиксированная реализация, основанная исключительно на коде, неизменно терпит неудачу на сложных графиках, где символическое представление неприменимо. Это открытие привело нас к введению понятия "Визуальная Программируемость" — обучаемого свойства, которое определяет, лучше ли решать задачу с помощью кода или прямого визуального анализа. Мы реализуем эту концепцию в адаптивной структуре, где VLM учится выбирать между путем CaT и путем прямого визуального рассуждения. Политика выбора модели обучается с использованием обучения с подкреплением на основе новой системы двойного вознаграждения. Эта система сочетает вознаграждение за точность данных, чтобы закрепить модель в фактах и предотвратить числовые галлюцинации, с вознаграждением за принятие решений, которое учит модель, когда использовать каждую стратегию, предотвращая ее склонность к единственному режиму рассуждений. Эксперименты демонстрируют высокую и устойчивую производительность на различных тестах по пониманию графиков. Наша работа показывает, что VLMs можно научить не только рассуждать, но и тому, как рассуждать, динамически выбирая оптимальный путь рассуждений для каждой задачи.
English
Chart understanding presents a critical test to the reasoning capabilities of
Vision-Language Models (VLMs). Prior approaches face critical limitations: some
rely on external tools, making them brittle and constrained by a predefined
toolkit, while others fine-tune specialist models that often adopt a single
reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate
steps of text-based reasoning are difficult to verify, which complicates the
use of reinforcement-learning signals that reward factual accuracy. To address
this, we propose a Code-as-Thought (CaT) approach to represent the visual
information of a chart in a verifiable, symbolic format. Our key insight is
that this strategy must be adaptive: a fixed, code-only implementation
consistently fails on complex charts where symbolic representation is
unsuitable. This finding leads us to introduce Visual Programmability: a
learnable property that determines if a chart-question pair is better solved
with code or direct visual analysis. We implement this concept in an adaptive
framework where a VLM learns to choose between the CaT pathway and a direct
visual reasoning pathway. The selection policy of the model is trained with
reinforcement learning using a novel dual-reward system. This system combines a
data-accuracy reward to ground the model in facts and prevent numerical
hallucination, with a decision reward that teaches the model when to use each
strategy, preventing it from defaulting to a single reasoning mode. Experiments
demonstrate strong and robust performance across diverse chart-understanding
benchmarks. Our work shows that VLMs can be taught not only to reason but also
how to reason, dynamically selecting the optimal reasoning pathway for each
task.