Visuelle Programmierbarkeit: Ein Leitfaden für Code-als-Gedanke in der Diagrammverständnis

papers.abstract

Das Verständnis von Diagrammen stellt eine entscheidende Herausforderung für die Fähigkeiten von Vision-Language-Modellen (VLMs) dar. Bisherige Ansätze weisen gravierende Einschränkungen auf: Einige verlassen sich auf externe Werkzeuge, was sie anfällig und durch ein vordefiniertes Toolkit begrenzt macht, während andere spezialisierte Modelle feinabstimmen, die oft eine einzige Denkstrategie verfolgen, wie beispielsweise textbasierte Ketten von Gedanken (Chain-of-Thought, CoT). Die Zwischenschritte textbasierter Denkprozesse sind schwer zu überprüfen, was die Nutzung von Verstärkungslernsignalen erschwert, die faktische Genauigkeit belohnen. Um dies zu adressieren, schlagen wir einen Code-as-Thought (CaT)-Ansatz vor, der die visuellen Informationen eines Diagramms in einem überprüfbaren, symbolischen Format darstellt. Unsere zentrale Erkenntnis ist, dass diese Strategie adaptiv sein muss: Eine feste, rein codebasierte Implementierung scheitert konsequent bei komplexen Diagrammen, bei denen eine symbolische Darstellung ungeeignet ist. Diese Erkenntnis führt uns zur Einführung der Visual Programmability: einer erlernbaren Eigenschaft, die bestimmt, ob ein Diagramm-Frage-Paar besser mit Code oder durch direkte visuelle Analyse gelöst werden sollte. Wir implementieren dieses Konzept in einem adaptiven Framework, in dem ein VLM lernt, zwischen dem CaT-Pfad und einem direkten visuellen Denkpfad zu wählen. Die Auswahlstrategie des Modells wird mit Verstärkungslernen unter Verwendung eines neuartigen dualen Belohnungssystems trainiert. Dieses System kombiniert eine Daten-Genauigkeits-Belohnung, um das Modell in Fakten zu verankern und numerische Halluzinationen zu verhindern, mit einer Entscheidungs-Belohnung, die dem Modell beibringt, wann es welche Strategie verwenden soll, und es daran hindert, sich auf einen einzigen Denkmodus zu beschränken. Experimente zeigen eine starke und robuste Leistung über diverse Diagramm-Verständnis-Benchmarks hinweg. Unsere Arbeit zeigt, dass VLMs nicht nur gelehrt werden können, zu denken, sondern auch, wie sie denken sollen, indem sie dynamisch den optimalen Denkpfad für jede Aufgabe auswählen.

English

Chart understanding presents a critical test to the reasoning capabilities of Vision-Language Models (VLMs). Prior approaches face critical limitations: some rely on external tools, making them brittle and constrained by a predefined toolkit, while others fine-tune specialist models that often adopt a single reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate steps of text-based reasoning are difficult to verify, which complicates the use of reinforcement-learning signals that reward factual accuracy. To address this, we propose a Code-as-Thought (CaT) approach to represent the visual information of a chart in a verifiable, symbolic format. Our key insight is that this strategy must be adaptive: a fixed, code-only implementation consistently fails on complex charts where symbolic representation is unsuitable. This finding leads us to introduce Visual Programmability: a learnable property that determines if a chart-question pair is better solved with code or direct visual analysis. We implement this concept in an adaptive framework where a VLM learns to choose between the CaT pathway and a direct visual reasoning pathway. The selection policy of the model is trained with reinforcement learning using a novel dual-reward system. This system combines a data-accuracy reward to ground the model in facts and prevent numerical hallucination, with a decision reward that teaches the model when to use each strategy, preventing it from defaulting to a single reasoning mode. Experiments demonstrate strong and robust performance across diverse chart-understanding benchmarks. Our work shows that VLMs can be taught not only to reason but also how to reason, dynamically selecting the optimal reasoning pathway for each task.

Visuelle Programmierbarkeit: Ein Leitfaden für Code-als-Gedanke in der Diagrammverständnis

Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

papers.abstract

Support