Programmabilità Visiva: Una Guida al Codice-Come-Pensiero nella Comprensione dei Grafici

Abstract

La comprensione dei grafici rappresenta una prova cruciale per le capacità di ragionamento dei Modelli Visione-Linguaggio (VLMs). Gli approcci precedenti presentano limitazioni significative: alcuni si affidano a strumenti esterni, rendendoli fragili e vincolati da un toolkit predefinito, mentre altri adattano modelli specializzati che spesso adottano una singola strategia di ragionamento, come il ragionamento a catena basato su testo (CoT). I passaggi intermedi del ragionamento basato su testo sono difficili da verificare, il che complica l'uso di segnali di apprendimento per rinforzo che premiano l'accuratezza fattuale. Per affrontare questo problema, proponiamo un approccio Code-as-Thought (CaT) per rappresentare le informazioni visive di un grafico in un formato simbolico verificabile. La nostra intuizione chiave è che questa strategia deve essere adattiva: un'implementazione fissa basata esclusivamente sul codice fallisce sistematicamente su grafici complessi dove la rappresentazione simbolica non è adatta. Questa scoperta ci porta a introdurre la Programmabilità Visiva: una proprietà apprendibile che determina se una coppia grafico-domanda è meglio risolta con il codice o con un'analisi visiva diretta. Implementiamo questo concetto in un framework adattivo in cui un VLM impara a scegliere tra il percorso CaT e un percorso di ragionamento visivo diretto. La politica di selezione del modello è addestrata con l'apprendimento per rinforzo utilizzando un nuovo sistema di doppia ricompensa. Questo sistema combina una ricompensa basata sull'accuratezza dei dati per ancorare il modello ai fatti e prevenire allucinazioni numeriche, con una ricompensa decisionale che insegna al modello quando utilizzare ciascuna strategia, impedendogli di ricadere in una singola modalità di ragionamento. Gli esperimenti dimostrano prestazioni solide e robuste su diversi benchmark di comprensione dei grafici. Il nostro lavoro mostra che i VLMs possono essere insegnati non solo a ragionare, ma anche come ragionare, selezionando dinamicamente il percorso di ragionamento ottimale per ogni compito.

English

Chart understanding presents a critical test to the reasoning capabilities of Vision-Language Models (VLMs). Prior approaches face critical limitations: some rely on external tools, making them brittle and constrained by a predefined toolkit, while others fine-tune specialist models that often adopt a single reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate steps of text-based reasoning are difficult to verify, which complicates the use of reinforcement-learning signals that reward factual accuracy. To address this, we propose a Code-as-Thought (CaT) approach to represent the visual information of a chart in a verifiable, symbolic format. Our key insight is that this strategy must be adaptive: a fixed, code-only implementation consistently fails on complex charts where symbolic representation is unsuitable. This finding leads us to introduce Visual Programmability: a learnable property that determines if a chart-question pair is better solved with code or direct visual analysis. We implement this concept in an adaptive framework where a VLM learns to choose between the CaT pathway and a direct visual reasoning pathway. The selection policy of the model is trained with reinforcement learning using a novel dual-reward system. This system combines a data-accuracy reward to ground the model in facts and prevent numerical hallucination, with a decision reward that teaches the model when to use each strategy, preventing it from defaulting to a single reasoning mode. Experiments demonstrate strong and robust performance across diverse chart-understanding benchmarks. Our work shows that VLMs can be taught not only to reason but also how to reason, dynamically selecting the optimal reasoning pathway for each task.

Programmabilità Visiva: Una Guida al Codice-Come-Pensiero nella Comprensione dei Grafici

Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

Abstract

Support