Visuele Programmeerbaarheid: Een Gids voor Code-als-Gedachte in Grafieken Begrijpen

Samenvatting

Het begrijpen van grafieken vormt een cruciale test voor de redeneervaardigheden van Vision-Language Models (VLMs). Eerdere benaderingen kampen met belangrijke beperkingen: sommige vertrouwen op externe tools, waardoor ze kwetsbaar zijn en beperkt worden door een vooraf gedefinieerde toolkit, terwijl andere gespecialiseerde modellen finetunen die vaak een enkele redeneerstrategie hanteren, zoals tekstgebaseerde chain-of-thought (CoT). De tussenliggende stappen van tekstgebaseerd redeneren zijn moeilijk te verifiëren, wat het gebruik van reinforcement-learning-signalen die feitelijke nauwkeurigheid belonen, bemoeilijkt. Om dit aan te pakken, stellen we een Code-as-Thought (CaT)-benadering voor om de visuele informatie van een grafiek weer te geven in een verifieerbaar, symbolisch formaat. Onze belangrijkste inzicht is dat deze strategie adaptief moet zijn: een vaste, uitsluitend code-gebaseerde implementatie faalt consistent bij complexe grafieken waar symbolische representatie ongeschikt is. Deze bevinding leidt ons tot de introductie van Visuele Programmeerbaarheid: een leerbare eigenschap die bepaalt of een grafiek-vraagpaar beter opgelost kan worden met code of directe visuele analyse. We implementeren dit concept in een adaptief framework waarin een VLM leert te kiezen tussen het CaT-pad en een direct visueel redeneerpad. Het selectiebeleid van het model wordt getraind met reinforcement learning met behulp van een nieuw dubbel-beloningssysteem. Dit systeem combineert een data-nauwkeurigheidsbeloning om het model in feiten te verankeren en numerieke hallucinatie te voorkomen, met een beslissingsbeloning die het model leert wanneer het elke strategie moet gebruiken, waardoor het wordt voorkomen dat het terugvalt op een enkele redeneermodus. Experimenten tonen sterke en robuuste prestaties aan op diverse benchmarks voor grafiekbegrip. Ons werk laat zien dat VLMs niet alleen kunnen worden geleerd om te redeneren, maar ook hoe te redeneren, door dynamisch het optimale redeneerpad voor elke taak te selecteren.

English

Chart understanding presents a critical test to the reasoning capabilities of Vision-Language Models (VLMs). Prior approaches face critical limitations: some rely on external tools, making them brittle and constrained by a predefined toolkit, while others fine-tune specialist models that often adopt a single reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate steps of text-based reasoning are difficult to verify, which complicates the use of reinforcement-learning signals that reward factual accuracy. To address this, we propose a Code-as-Thought (CaT) approach to represent the visual information of a chart in a verifiable, symbolic format. Our key insight is that this strategy must be adaptive: a fixed, code-only implementation consistently fails on complex charts where symbolic representation is unsuitable. This finding leads us to introduce Visual Programmability: a learnable property that determines if a chart-question pair is better solved with code or direct visual analysis. We implement this concept in an adaptive framework where a VLM learns to choose between the CaT pathway and a direct visual reasoning pathway. The selection policy of the model is trained with reinforcement learning using a novel dual-reward system. This system combines a data-accuracy reward to ground the model in facts and prevent numerical hallucination, with a decision reward that teaches the model when to use each strategy, preventing it from defaulting to a single reasoning mode. Experiments demonstrate strong and robust performance across diverse chart-understanding benchmarks. Our work shows that VLMs can be taught not only to reason but also how to reason, dynamically selecting the optimal reasoning pathway for each task.

Visuele Programmeerbaarheid: Een Gids voor Code-als-Gedachte in Grafieken Begrijpen

Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

Samenvatting

Support