Visuele Programmeerbaarheid: Een Gids voor Code-als-Gedachte in Grafieken Begrijpen
Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
September 11, 2025
Auteurs: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI
Samenvatting
Het begrijpen van grafieken vormt een cruciale test voor de redeneervaardigheden van Vision-Language Models (VLMs). Eerdere benaderingen kampen met belangrijke beperkingen: sommige vertrouwen op externe tools, waardoor ze kwetsbaar zijn en beperkt worden door een vooraf gedefinieerde toolkit, terwijl andere gespecialiseerde modellen finetunen die vaak een enkele redeneerstrategie hanteren, zoals tekstgebaseerde chain-of-thought (CoT). De tussenliggende stappen van tekstgebaseerd redeneren zijn moeilijk te verifiëren, wat het gebruik van reinforcement-learning-signalen die feitelijke nauwkeurigheid belonen, bemoeilijkt. Om dit aan te pakken, stellen we een Code-as-Thought (CaT)-benadering voor om de visuele informatie van een grafiek weer te geven in een verifieerbaar, symbolisch formaat. Onze belangrijkste inzicht is dat deze strategie adaptief moet zijn: een vaste, uitsluitend code-gebaseerde implementatie faalt consistent bij complexe grafieken waar symbolische representatie ongeschikt is. Deze bevinding leidt ons tot de introductie van Visuele Programmeerbaarheid: een leerbare eigenschap die bepaalt of een grafiek-vraagpaar beter opgelost kan worden met code of directe visuele analyse. We implementeren dit concept in een adaptief framework waarin een VLM leert te kiezen tussen het CaT-pad en een direct visueel redeneerpad. Het selectiebeleid van het model wordt getraind met reinforcement learning met behulp van een nieuw dubbel-beloningssysteem. Dit systeem combineert een data-nauwkeurigheidsbeloning om het model in feiten te verankeren en numerieke hallucinatie te voorkomen, met een beslissingsbeloning die het model leert wanneer het elke strategie moet gebruiken, waardoor het wordt voorkomen dat het terugvalt op een enkele redeneermodus. Experimenten tonen sterke en robuuste prestaties aan op diverse benchmarks voor grafiekbegrip. Ons werk laat zien dat VLMs niet alleen kunnen worden geleerd om te redeneren, maar ook hoe te redeneren, door dynamisch het optimale redeneerpad voor elke taak te selecteren.
English
Chart understanding presents a critical test to the reasoning capabilities of
Vision-Language Models (VLMs). Prior approaches face critical limitations: some
rely on external tools, making them brittle and constrained by a predefined
toolkit, while others fine-tune specialist models that often adopt a single
reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate
steps of text-based reasoning are difficult to verify, which complicates the
use of reinforcement-learning signals that reward factual accuracy. To address
this, we propose a Code-as-Thought (CaT) approach to represent the visual
information of a chart in a verifiable, symbolic format. Our key insight is
that this strategy must be adaptive: a fixed, code-only implementation
consistently fails on complex charts where symbolic representation is
unsuitable. This finding leads us to introduce Visual Programmability: a
learnable property that determines if a chart-question pair is better solved
with code or direct visual analysis. We implement this concept in an adaptive
framework where a VLM learns to choose between the CaT pathway and a direct
visual reasoning pathway. The selection policy of the model is trained with
reinforcement learning using a novel dual-reward system. This system combines a
data-accuracy reward to ground the model in facts and prevent numerical
hallucination, with a decision reward that teaches the model when to use each
strategy, preventing it from defaulting to a single reasoning mode. Experiments
demonstrate strong and robust performance across diverse chart-understanding
benchmarks. Our work shows that VLMs can be taught not only to reason but also
how to reason, dynamically selecting the optimal reasoning pathway for each
task.