Programmation Visuelle : Un Guide pour le Code-Comme-Pensée dans les Graphiques Compréhension

papers.abstract

La compréhension de graphiques représente un test crucial pour les capacités de raisonnement des modèles vision-langage (VLMs). Les approches précédentes présentent des limites importantes : certaines s'appuient sur des outils externes, les rendant fragiles et contraintes par une boîte à outils prédéfinie, tandis que d'autres affinent des modèles spécialisés qui adoptent souvent une stratégie de raisonnement unique, telle que la chaîne de pensée (CoT) basée sur le texte. Les étapes intermédiaires du raisonnement textuel sont difficiles à vérifier, ce qui complique l'utilisation de signaux d'apprentissage par renforcement récompensant l'exactitude factuelle. Pour résoudre ce problème, nous proposons une approche Code-as-Thought (CaT) pour représenter les informations visuelles d'un graphique dans un format symbolique vérifiable. Notre idée clé est que cette stratégie doit être adaptative : une implémentation fixe basée uniquement sur le code échoue systématiquement sur des graphiques complexes où la représentation symbolique est inadaptée. Cette observation nous amène à introduire la Programmation Visuelle : une propriété apprenable qui détermine si une paire graphique-question est mieux résolue avec du code ou une analyse visuelle directe. Nous implémentons ce concept dans un cadre adaptatif où un VLM apprend à choisir entre la voie CaT et une voie de raisonnement visuel direct. La politique de sélection du modèle est entraînée par apprentissage par renforcement à l'aide d'un système de récompense dual inédit. Ce système combine une récompense basée sur l'exactitude des données pour ancrer le modèle dans les faits et prévenir les hallucinations numériques, avec une récompense de décision qui enseigne au modèle quand utiliser chaque stratégie, l'empêchant de se rabattre sur un mode de raisonnement unique. Les expériences démontrent une performance forte et robuste sur divers benchmarks de compréhension de graphiques. Notre travail montre que les VLMs peuvent être enseignés non seulement à raisonner, mais aussi à choisir dynamiquement la voie de raisonnement optimale pour chaque tâche.

English

Chart understanding presents a critical test to the reasoning capabilities of Vision-Language Models (VLMs). Prior approaches face critical limitations: some rely on external tools, making them brittle and constrained by a predefined toolkit, while others fine-tune specialist models that often adopt a single reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate steps of text-based reasoning are difficult to verify, which complicates the use of reinforcement-learning signals that reward factual accuracy. To address this, we propose a Code-as-Thought (CaT) approach to represent the visual information of a chart in a verifiable, symbolic format. Our key insight is that this strategy must be adaptive: a fixed, code-only implementation consistently fails on complex charts where symbolic representation is unsuitable. This finding leads us to introduce Visual Programmability: a learnable property that determines if a chart-question pair is better solved with code or direct visual analysis. We implement this concept in an adaptive framework where a VLM learns to choose between the CaT pathway and a direct visual reasoning pathway. The selection policy of the model is trained with reinforcement learning using a novel dual-reward system. This system combines a data-accuracy reward to ground the model in facts and prevent numerical hallucination, with a decision reward that teaches the model when to use each strategy, preventing it from defaulting to a single reasoning mode. Experiments demonstrate strong and robust performance across diverse chart-understanding benchmarks. Our work shows that VLMs can be taught not only to reason but also how to reason, dynamically selecting the optimal reasoning pathway for each task.

Programmation Visuelle : Un Guide pour le Code-Comme-Pensée dans les Graphiques Compréhension

Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

papers.abstract

Support