Programação Visual: Um Guia para Código-como-Pensamento na Interpretação de Gráficos
Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
September 11, 2025
Autores: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI
Resumo
A compreensão de gráficos representa um teste crítico para as capacidades de raciocínio dos Modelos de Visão e Linguagem (VLMs). Abordagens anteriores enfrentam limitações significativas: algumas dependem de ferramentas externas, tornando-as frágeis e restritas por um conjunto de ferramentas predefinido, enquanto outras ajustam modelos especializados que frequentemente adotam uma única estratégia de raciocínio, como a cadeia de pensamento (CoT) baseada em texto. As etapas intermediárias do raciocínio baseado em texto são difíceis de verificar, o que complica o uso de sinais de aprendizado por reforço que recompensam a precisão factual. Para resolver isso, propomos uma abordagem de Código-como-Pensamento (CaT) para representar a informação visual de um gráfico em um formato simbólico verificável. Nossa principal percepção é que essa estratégia deve ser adaptativa: uma implementação fixa, baseada apenas em código, consistentemente falha em gráficos complexos onde a representação simbólica é inadequada. Essa descoberta nos leva a introduzir a Programabilidade Visual: uma propriedade aprendível que determina se um par gráfico-pergunta é melhor resolvido com código ou com análise visual direta. Implementamos esse conceito em um framework adaptativo onde um VLM aprende a escolher entre o caminho CaT e um caminho de raciocínio visual direto. A política de seleção do modelo é treinada com aprendizado por reforço usando um sistema de recompensa dual inovador. Esse sistema combina uma recompensa de precisão de dados para fundamentar o modelo em fatos e prevenir alucinações numéricas, com uma recompensa de decisão que ensina o modelo quando usar cada estratégia, evitando que ele recaia em um único modo de raciocínio. Experimentos demonstram um desempenho forte e robusto em diversos benchmarks de compreensão de gráficos. Nosso trabalho mostra que VLMs podem ser ensinados não apenas a raciocinar, mas também como raciocinar, selecionando dinamicamente o caminho de raciocínio ideal para cada tarefa.
English
Chart understanding presents a critical test to the reasoning capabilities of
Vision-Language Models (VLMs). Prior approaches face critical limitations: some
rely on external tools, making them brittle and constrained by a predefined
toolkit, while others fine-tune specialist models that often adopt a single
reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate
steps of text-based reasoning are difficult to verify, which complicates the
use of reinforcement-learning signals that reward factual accuracy. To address
this, we propose a Code-as-Thought (CaT) approach to represent the visual
information of a chart in a verifiable, symbolic format. Our key insight is
that this strategy must be adaptive: a fixed, code-only implementation
consistently fails on complex charts where symbolic representation is
unsuitable. This finding leads us to introduce Visual Programmability: a
learnable property that determines if a chart-question pair is better solved
with code or direct visual analysis. We implement this concept in an adaptive
framework where a VLM learns to choose between the CaT pathway and a direct
visual reasoning pathway. The selection policy of the model is trained with
reinforcement learning using a novel dual-reward system. This system combines a
data-accuracy reward to ground the model in facts and prevent numerical
hallucination, with a decision reward that teaches the model when to use each
strategy, preventing it from defaulting to a single reasoning mode. Experiments
demonstrate strong and robust performance across diverse chart-understanding
benchmarks. Our work shows that VLMs can be taught not only to reason but also
how to reason, dynamically selecting the optimal reasoning pathway for each
task.