ChatPaper.aiChatPaper

Визуальная программируемость: Руководство по подходу "код-как-мысль" в понимании диаграмм

Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

September 11, 2025
Авторы: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI

Аннотация

Понимание графиков представляет собой важный тест для способностей к рассуждению у моделей, объединяющих зрение и язык (Vision-Language Models, VLMs). Существующие подходы имеют существенные ограничения: некоторые полагаются на внешние инструменты, что делает их ненадежными и ограниченными предопределенным набором инструментов, в то время как другие используют специализированные модели, которые часто применяют единственную стратегию рассуждений, например, текстовую цепочку мыслей (chain-of-thought, CoT). Промежуточные этапы текстовых рассуждений сложно проверить, что затрудняет использование сигналов обучения с подкреплением, направленных на вознаграждение за фактическую точность. Чтобы решить эту проблему, мы предлагаем подход "Код как Мысль" (Code-as-Thought, CaT), который представляет визуальную информацию графика в проверяемом, символическом формате. Наше ключевое наблюдение заключается в том, что эта стратегия должна быть адаптивной: фиксированная реализация, основанная исключительно на коде, неизменно терпит неудачу на сложных графиках, где символическое представление неприменимо. Это открытие привело нас к введению понятия "Визуальная Программируемость" — обучаемого свойства, которое определяет, лучше ли решать задачу с помощью кода или прямого визуального анализа. Мы реализуем эту концепцию в адаптивной структуре, где VLM учится выбирать между путем CaT и путем прямого визуального рассуждения. Политика выбора модели обучается с использованием обучения с подкреплением на основе новой системы двойного вознаграждения. Эта система сочетает вознаграждение за точность данных, чтобы закрепить модель в фактах и предотвратить числовые галлюцинации, с вознаграждением за принятие решений, которое учит модель, когда использовать каждую стратегию, предотвращая ее склонность к единственному режиму рассуждений. Эксперименты демонстрируют высокую и устойчивую производительность на различных тестах по пониманию графиков. Наша работа показывает, что VLMs можно научить не только рассуждать, но и тому, как рассуждать, динамически выбирая оптимальный путь рассуждений для каждой задачи.
English
Chart understanding presents a critical test to the reasoning capabilities of Vision-Language Models (VLMs). Prior approaches face critical limitations: some rely on external tools, making them brittle and constrained by a predefined toolkit, while others fine-tune specialist models that often adopt a single reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate steps of text-based reasoning are difficult to verify, which complicates the use of reinforcement-learning signals that reward factual accuracy. To address this, we propose a Code-as-Thought (CaT) approach to represent the visual information of a chart in a verifiable, symbolic format. Our key insight is that this strategy must be adaptive: a fixed, code-only implementation consistently fails on complex charts where symbolic representation is unsuitable. This finding leads us to introduce Visual Programmability: a learnable property that determines if a chart-question pair is better solved with code or direct visual analysis. We implement this concept in an adaptive framework where a VLM learns to choose between the CaT pathway and a direct visual reasoning pathway. The selection policy of the model is trained with reinforcement learning using a novel dual-reward system. This system combines a data-accuracy reward to ground the model in facts and prevent numerical hallucination, with a decision reward that teaches the model when to use each strategy, preventing it from defaulting to a single reasoning mode. Experiments demonstrate strong and robust performance across diverse chart-understanding benchmarks. Our work shows that VLMs can be taught not only to reason but also how to reason, dynamically selecting the optimal reasoning pathway for each task.
PDF82September 12, 2025