Chartographer: Contrafactuele Grafiekgeneratie voor het Evalueren van Visueel-Taalmodellen

Samenvatting

Benchmarks voor het beantwoorden van vragen over grafieken (Chart QA) zijn bedoeld om vragen te stellen die visueel redeneren vereisen om correct te beantwoorden, maar modellen kunnen vaak oplossingen bereiken via shortcuts of eerdere bekendheid met een grafiek op basis van hun eigen achtergrondkennis. Om visueel redeneren strikt te evalueren, stellen we contrafeitelijke grafieken voor waarbij de grafiekvraagtaak vast blijft, maar de onderliggende grafiek en het bijbehorende antwoord worden gevarieerd. We introduceren Chartographer, een raamwerk om grafieken terug te engineeren naar uitvoerbare code, de reconstructiegetrouwheid te valideren, zaadgestuurde contrafeitelijke varianten te genereren en nieuwe antwoorden af te leiden uit uitvoerbare QA-logica. We passen dit raamwerk toe op bestaande Chart QA-datasets en evalueren propriëtaire en open-source visie-taalmodelen (VLMs), waarbij we variatiegevoeligheid en generaliseerbaarheid meten. Contrafeitelijke grafieken onthullen fouten die verborgen worden door prestaties op enkele grafieken: VLMs falen vaak om te generaliseren nadat ze de oorspronkelijke grafiek correct hebben beantwoord. We constateren dat fouten het meest voorkomen wanneer bijgewerkte grafieken nieuwe visuele redeneerpaden vereisen.

English

Chart question-answering (QA) benchmarks aim to pose questions that require visual reasoning to correctly answer, but models can often reach solutions through shortcuts or prior familiarity with a chart based on their own background knowledge. To strictly evaluate visual reasoning, we propose counterfactual charts where the chart-question task remains fixed, but underlying chart and the corresponding answer are varied. We introduce Chartographer, a framework to reverse engineer charts into executable code, validate reconstruction fidelity, generate seed-controlled counterfactual variants, and derive new answers from executable QA logic. We apply this framework to existing chart QA datasets and evaluate proprietary and open-source vision-language models (VLMs), measuring variation sensitivity and generalizability. Counterfactual charts reveal failures hidden by single-chart performance: VLMs often fail to generalize after answering the original chart correctly. We find failures are most prevalent when updated charts require novel visual reasoning pathways.