Chartographer : Génération de graphiques contrefactuels pour l'évaluation des modèles vision-langage

Résumé

Les benchmarks de question-réponse sur graphiques (QA) visent à poser des questions nécessitant un raisonnement visuel pour y répondre correctement, mais les modèles peuvent souvent parvenir à des solutions par des raccourcis ou une familiarité préalable avec un graphique fondée sur leurs propres connaissances de base. Pour évaluer strictement le raisonnement visuel, nous proposons des graphiques contrefactuels où la tâche de question sur le graphique reste fixe, mais le graphique sous-jacent et la réponse correspondante varient. Nous présentons Chartographer, un cadre permettant de rétro-ingénier les graphiques en code exécutable, de valider la fidélité de la reconstruction, de générer des variantes contrefactuelles contrôlées par graine et de dériver de nouvelles réponses à partir d’une logique de QA exécutable. Nous appliquons ce cadre à des ensembles de données QA sur graphiques existants et évaluons des modèles vision-langage (VLM) propriétaires et open source, en mesurant la sensibilité aux variations et la généralisabilité. Les graphiques contrefactuels révèlent des échecs masqués par les performances sur un seul graphique : les VLM échouent souvent à généraliser après avoir correctement répondu au graphique original. Nous constatons que les échecs sont les plus fréquents lorsque les graphiques mis à jour nécessitent de nouvelles voies de raisonnement visuel.

English

Chart question-answering (QA) benchmarks aim to pose questions that require visual reasoning to correctly answer, but models can often reach solutions through shortcuts or prior familiarity with a chart based on their own background knowledge. To strictly evaluate visual reasoning, we propose counterfactual charts where the chart-question task remains fixed, but underlying chart and the corresponding answer are varied. We introduce Chartographer, a framework to reverse engineer charts into executable code, validate reconstruction fidelity, generate seed-controlled counterfactual variants, and derive new answers from executable QA logic. We apply this framework to existing chart QA datasets and evaluate proprietary and open-source vision-language models (VLMs), measuring variation sensitivity and generalizability. Counterfactual charts reveal failures hidden by single-chart performance: VLMs often fail to generalize after answering the original chart correctly. We find failures are most prevalent when updated charts require novel visual reasoning pathways.