ChatPaper.aiChatPaper

Programação Visual: Um Guia para Código-como-Pensamento na Interpretação de Gráficos

Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

September 11, 2025
Autores: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI

Resumo

A compreensão de gráficos representa um teste crítico para as capacidades de raciocínio dos Modelos de Visão e Linguagem (VLMs). Abordagens anteriores enfrentam limitações significativas: algumas dependem de ferramentas externas, tornando-as frágeis e restritas por um conjunto de ferramentas predefinido, enquanto outras ajustam modelos especializados que frequentemente adotam uma única estratégia de raciocínio, como a cadeia de pensamento (CoT) baseada em texto. As etapas intermediárias do raciocínio baseado em texto são difíceis de verificar, o que complica o uso de sinais de aprendizado por reforço que recompensam a precisão factual. Para resolver isso, propomos uma abordagem de Código-como-Pensamento (CaT) para representar a informação visual de um gráfico em um formato simbólico verificável. Nossa principal percepção é que essa estratégia deve ser adaptativa: uma implementação fixa, baseada apenas em código, consistentemente falha em gráficos complexos onde a representação simbólica é inadequada. Essa descoberta nos leva a introduzir a Programabilidade Visual: uma propriedade aprendível que determina se um par gráfico-pergunta é melhor resolvido com código ou com análise visual direta. Implementamos esse conceito em um framework adaptativo onde um VLM aprende a escolher entre o caminho CaT e um caminho de raciocínio visual direto. A política de seleção do modelo é treinada com aprendizado por reforço usando um sistema de recompensa dual inovador. Esse sistema combina uma recompensa de precisão de dados para fundamentar o modelo em fatos e prevenir alucinações numéricas, com uma recompensa de decisão que ensina o modelo quando usar cada estratégia, evitando que ele recaia em um único modo de raciocínio. Experimentos demonstram um desempenho forte e robusto em diversos benchmarks de compreensão de gráficos. Nosso trabalho mostra que VLMs podem ser ensinados não apenas a raciocinar, mas também como raciocinar, selecionando dinamicamente o caminho de raciocínio ideal para cada tarefa.
English
Chart understanding presents a critical test to the reasoning capabilities of Vision-Language Models (VLMs). Prior approaches face critical limitations: some rely on external tools, making them brittle and constrained by a predefined toolkit, while others fine-tune specialist models that often adopt a single reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate steps of text-based reasoning are difficult to verify, which complicates the use of reinforcement-learning signals that reward factual accuracy. To address this, we propose a Code-as-Thought (CaT) approach to represent the visual information of a chart in a verifiable, symbolic format. Our key insight is that this strategy must be adaptive: a fixed, code-only implementation consistently fails on complex charts where symbolic representation is unsuitable. This finding leads us to introduce Visual Programmability: a learnable property that determines if a chart-question pair is better solved with code or direct visual analysis. We implement this concept in an adaptive framework where a VLM learns to choose between the CaT pathway and a direct visual reasoning pathway. The selection policy of the model is trained with reinforcement learning using a novel dual-reward system. This system combines a data-accuracy reward to ground the model in facts and prevent numerical hallucination, with a decision reward that teaches the model when to use each strategy, preventing it from defaulting to a single reasoning mode. Experiments demonstrate strong and robust performance across diverse chart-understanding benchmarks. Our work shows that VLMs can be taught not only to reason but also how to reason, dynamically selecting the optimal reasoning pathway for each task.
PDF82September 12, 2025