Chartographer: Kontrafaktische Diagrammgenerierung zur Evaluierung von Vision-Language-Modellen

Zusammenfassung

Benchmarks zum Beantworten von Fragen zu Diagrammen (Chart QA) zielen darauf ab, Fragen zu stellen, die visuelles Denken erfordern, um korrekt beantwortet zu werden, aber Modelle können oft durch Abkürzungen oder vorherige Vertrautheit mit einem Diagramm basierend auf ihrem eigenen Hintergrundwissen zu Lösungen gelangen. Um das visuelle Denken streng zu bewerten, schlagen wir kontrafaktische Diagramme vor, bei denen die Diagramm-Fragen-Aufgabe fest bleibt, aber das zugrunde liegende Diagramm und die entsprechende Antwort variiert werden. Wir führen Chartographer ein, ein Framework, das Diagramme in ausführbaren Code zurückentwickelt, die Rekonstruktionstreue validiert, seed-kontrollierte kontrafaktische Varianten erzeugt und aus ausführbarer QA-Logik neue Antworten ableitet. Wir wenden dieses Framework auf bestehende Chart-QA-Datensätze an und evaluieren proprietäre sowie Open-Source-Vision-Language-Modelle (VLMs), wobei wir die Variationssensitivität und Generalisierbarkeit messen. Kontrafaktische Diagramme offenbaren Fehler, die durch die Einzeldiagramm-Leistung verdeckt werden: VLMs versagen oft bei der Generalisierung, nachdem sie das ursprüngliche Diagramm korrekt beantwortet haben. Wir stellen fest, dass Fehler am häufigsten auftreten, wenn aktualisierte Diagramme neuartige visuelle Denkpfade erfordern.

English

Chart question-answering (QA) benchmarks aim to pose questions that require visual reasoning to correctly answer, but models can often reach solutions through shortcuts or prior familiarity with a chart based on their own background knowledge. To strictly evaluate visual reasoning, we propose counterfactual charts where the chart-question task remains fixed, but underlying chart and the corresponding answer are varied. We introduce Chartographer, a framework to reverse engineer charts into executable code, validate reconstruction fidelity, generate seed-controlled counterfactual variants, and derive new answers from executable QA logic. We apply this framework to existing chart QA datasets and evaluate proprietary and open-source vision-language models (VLMs), measuring variation sensitivity and generalizability. Counterfactual charts reveal failures hidden by single-chart performance: VLMs often fail to generalize after answering the original chart correctly. We find failures are most prevalent when updated charts require novel visual reasoning pathways.