Programación Visual: Una Guía para el Código-como-Pensamiento en la Comprensión de Gráficos
Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
September 11, 2025
Autores: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI
Resumen
La comprensión de gráficos representa una prueba crítica para las capacidades de razonamiento de los Modelos de Visión-Lenguaje (VLMs). Los enfoques previos enfrentan limitaciones significativas: algunos dependen de herramientas externas, lo que los hace frágiles y restringidos por un conjunto de herramientas predefinido, mientras que otros ajustan modelos especializados que a menudo adoptan una única estrategia de razonamiento, como la cadena de pensamiento (CoT) basada en texto. Los pasos intermedios del razonamiento basado en texto son difíciles de verificar, lo que complica el uso de señales de aprendizaje por refuerzo que premian la precisión factual. Para abordar esto, proponemos un enfoque de Código-como-Pensamiento (CaT) para representar la información visual de un gráfico en un formato simbólico verificable. Nuestra idea clave es que esta estrategia debe ser adaptativa: una implementación fija basada únicamente en código falla consistentemente en gráficos complejos donde la representación simbólica no es adecuada. Este hallazgo nos lleva a introducir la Programabilidad Visual: una propiedad aprendible que determina si un par gráfico-pregunta se resuelve mejor con código o con un análisis visual directo. Implementamos este concepto en un marco adaptativo donde un VLM aprende a elegir entre la vía CaT y una vía de razonamiento visual directo. La política de selección del modelo se entrena con aprendizaje por refuerzo utilizando un novedoso sistema de recompensa dual. Este sistema combina una recompensa de precisión de datos para anclar el modelo en hechos y prevenir alucinaciones numéricas, con una recompensa de decisión que enseña al modelo cuándo usar cada estrategia, evitando que recurra a un único modo de razonamiento. Los experimentos demuestran un rendimiento sólido y robusto en diversos benchmarks de comprensión de gráficos. Nuestro trabajo muestra que los VLMs pueden ser enseñados no solo a razonar, sino también cómo razonar, seleccionando dinámicamente la vía de razonamiento óptima para cada tarea.
English
Chart understanding presents a critical test to the reasoning capabilities of
Vision-Language Models (VLMs). Prior approaches face critical limitations: some
rely on external tools, making them brittle and constrained by a predefined
toolkit, while others fine-tune specialist models that often adopt a single
reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate
steps of text-based reasoning are difficult to verify, which complicates the
use of reinforcement-learning signals that reward factual accuracy. To address
this, we propose a Code-as-Thought (CaT) approach to represent the visual
information of a chart in a verifiable, symbolic format. Our key insight is
that this strategy must be adaptive: a fixed, code-only implementation
consistently fails on complex charts where symbolic representation is
unsuitable. This finding leads us to introduce Visual Programmability: a
learnable property that determines if a chart-question pair is better solved
with code or direct visual analysis. We implement this concept in an adaptive
framework where a VLM learns to choose between the CaT pathway and a direct
visual reasoning pathway. The selection policy of the model is trained with
reinforcement learning using a novel dual-reward system. This system combines a
data-accuracy reward to ground the model in facts and prevent numerical
hallucination, with a decision reward that teaches the model when to use each
strategy, preventing it from defaulting to a single reasoning mode. Experiments
demonstrate strong and robust performance across diverse chart-understanding
benchmarks. Our work shows that VLMs can be taught not only to reason but also
how to reason, dynamically selecting the optimal reasoning pathway for each
task.