ChatPaper.aiChatPaper

Programación Visual: Una Guía para el Código-como-Pensamiento en la Comprensión de Gráficos

Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

September 11, 2025
Autores: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI

Resumen

La comprensión de gráficos representa una prueba crítica para las capacidades de razonamiento de los Modelos de Visión-Lenguaje (VLMs). Los enfoques previos enfrentan limitaciones significativas: algunos dependen de herramientas externas, lo que los hace frágiles y restringidos por un conjunto de herramientas predefinido, mientras que otros ajustan modelos especializados que a menudo adoptan una única estrategia de razonamiento, como la cadena de pensamiento (CoT) basada en texto. Los pasos intermedios del razonamiento basado en texto son difíciles de verificar, lo que complica el uso de señales de aprendizaje por refuerzo que premian la precisión factual. Para abordar esto, proponemos un enfoque de Código-como-Pensamiento (CaT) para representar la información visual de un gráfico en un formato simbólico verificable. Nuestra idea clave es que esta estrategia debe ser adaptativa: una implementación fija basada únicamente en código falla consistentemente en gráficos complejos donde la representación simbólica no es adecuada. Este hallazgo nos lleva a introducir la Programabilidad Visual: una propiedad aprendible que determina si un par gráfico-pregunta se resuelve mejor con código o con un análisis visual directo. Implementamos este concepto en un marco adaptativo donde un VLM aprende a elegir entre la vía CaT y una vía de razonamiento visual directo. La política de selección del modelo se entrena con aprendizaje por refuerzo utilizando un novedoso sistema de recompensa dual. Este sistema combina una recompensa de precisión de datos para anclar el modelo en hechos y prevenir alucinaciones numéricas, con una recompensa de decisión que enseña al modelo cuándo usar cada estrategia, evitando que recurra a un único modo de razonamiento. Los experimentos demuestran un rendimiento sólido y robusto en diversos benchmarks de comprensión de gráficos. Nuestro trabajo muestra que los VLMs pueden ser enseñados no solo a razonar, sino también cómo razonar, seleccionando dinámicamente la vía de razonamiento óptima para cada tarea.
English
Chart understanding presents a critical test to the reasoning capabilities of Vision-Language Models (VLMs). Prior approaches face critical limitations: some rely on external tools, making them brittle and constrained by a predefined toolkit, while others fine-tune specialist models that often adopt a single reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate steps of text-based reasoning are difficult to verify, which complicates the use of reinforcement-learning signals that reward factual accuracy. To address this, we propose a Code-as-Thought (CaT) approach to represent the visual information of a chart in a verifiable, symbolic format. Our key insight is that this strategy must be adaptive: a fixed, code-only implementation consistently fails on complex charts where symbolic representation is unsuitable. This finding leads us to introduce Visual Programmability: a learnable property that determines if a chart-question pair is better solved with code or direct visual analysis. We implement this concept in an adaptive framework where a VLM learns to choose between the CaT pathway and a direct visual reasoning pathway. The selection policy of the model is trained with reinforcement learning using a novel dual-reward system. This system combines a data-accuracy reward to ground the model in facts and prevent numerical hallucination, with a decision reward that teaches the model when to use each strategy, preventing it from defaulting to a single reasoning mode. Experiments demonstrate strong and robust performance across diverse chart-understanding benchmarks. Our work shows that VLMs can be taught not only to reason but also how to reason, dynamically selecting the optimal reasoning pathway for each task.
PDF82September 12, 2025