Programmabilità Visiva: Una Guida al Codice-Come-Pensiero nella Comprensione dei Grafici
Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
September 11, 2025
Autori: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI
Abstract
La comprensione dei grafici rappresenta una prova cruciale per le capacità di ragionamento dei Modelli Visione-Linguaggio (VLMs). Gli approcci precedenti presentano limitazioni significative: alcuni si affidano a strumenti esterni, rendendoli fragili e vincolati da un toolkit predefinito, mentre altri adattano modelli specializzati che spesso adottano una singola strategia di ragionamento, come il ragionamento a catena basato su testo (CoT). I passaggi intermedi del ragionamento basato su testo sono difficili da verificare, il che complica l'uso di segnali di apprendimento per rinforzo che premiano l'accuratezza fattuale. Per affrontare questo problema, proponiamo un approccio Code-as-Thought (CaT) per rappresentare le informazioni visive di un grafico in un formato simbolico verificabile. La nostra intuizione chiave è che questa strategia deve essere adattiva: un'implementazione fissa basata esclusivamente sul codice fallisce sistematicamente su grafici complessi dove la rappresentazione simbolica non è adatta. Questa scoperta ci porta a introdurre la Programmabilità Visiva: una proprietà apprendibile che determina se una coppia grafico-domanda è meglio risolta con il codice o con un'analisi visiva diretta. Implementiamo questo concetto in un framework adattivo in cui un VLM impara a scegliere tra il percorso CaT e un percorso di ragionamento visivo diretto. La politica di selezione del modello è addestrata con l'apprendimento per rinforzo utilizzando un nuovo sistema di doppia ricompensa. Questo sistema combina una ricompensa basata sull'accuratezza dei dati per ancorare il modello ai fatti e prevenire allucinazioni numeriche, con una ricompensa decisionale che insegna al modello quando utilizzare ciascuna strategia, impedendogli di ricadere in una singola modalità di ragionamento. Gli esperimenti dimostrano prestazioni solide e robuste su diversi benchmark di comprensione dei grafici. Il nostro lavoro mostra che i VLMs possono essere insegnati non solo a ragionare, ma anche come ragionare, selezionando dinamicamente il percorso di ragionamento ottimale per ogni compito.
English
Chart understanding presents a critical test to the reasoning capabilities of
Vision-Language Models (VLMs). Prior approaches face critical limitations: some
rely on external tools, making them brittle and constrained by a predefined
toolkit, while others fine-tune specialist models that often adopt a single
reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate
steps of text-based reasoning are difficult to verify, which complicates the
use of reinforcement-learning signals that reward factual accuracy. To address
this, we propose a Code-as-Thought (CaT) approach to represent the visual
information of a chart in a verifiable, symbolic format. Our key insight is
that this strategy must be adaptive: a fixed, code-only implementation
consistently fails on complex charts where symbolic representation is
unsuitable. This finding leads us to introduce Visual Programmability: a
learnable property that determines if a chart-question pair is better solved
with code or direct visual analysis. We implement this concept in an adaptive
framework where a VLM learns to choose between the CaT pathway and a direct
visual reasoning pathway. The selection policy of the model is trained with
reinforcement learning using a novel dual-reward system. This system combines a
data-accuracy reward to ground the model in facts and prevent numerical
hallucination, with a decision reward that teaches the model when to use each
strategy, preventing it from defaulting to a single reasoning mode. Experiments
demonstrate strong and robust performance across diverse chart-understanding
benchmarks. Our work shows that VLMs can be taught not only to reason but also
how to reason, dynamically selecting the optimal reasoning pathway for each
task.