Chartographer: Generación Contrafáctica de Gráficos para la Evaluación de Modelos de Visión y Lenguaje

Resumen

Los benchmarks de preguntas y respuestas (QA) sobre gráficos tienen como objetivo plantear preguntas que requieren razonamiento visual para responder correctamente, pero los modelos a menudo pueden llegar a soluciones mediante atajos o familiaridad previa con un gráfico basada en su propio conocimiento de fondo. Para evaluar estrictamente el razonamiento visual, proponemos gráficos contrafactuales donde la tarea de pregunta-gráfico permanece fija, pero el gráfico subyacente y la respuesta correspondiente varían. Presentamos Chartographer, un marco para realizar ingeniería inversa de gráficos en código ejecutable, validar la fidelidad de la reconstrucción, generar variantes contrafactuales controladas por semilla y derivar nuevas respuestas a partir de la lógica QA ejecutable. Aplicamos este marco a conjuntos de datos QA de gráficos existentes y evaluamos modelos de lenguaje-visión (VLM) propietarios y de código abierto, midiendo la sensibilidad a la variación y la capacidad de generalización. Los gráficos contrafactuales revelan fallos ocultos por el rendimiento en un solo gráfico: los VLM a menudo fallan al generalizar después de responder correctamente al gráfico original. Encontramos que los fallos son más frecuentes cuando los gráficos actualizados requieren nuevas vías de razonamiento visual.

English

Chart question-answering (QA) benchmarks aim to pose questions that require visual reasoning to correctly answer, but models can often reach solutions through shortcuts or prior familiarity with a chart based on their own background knowledge. To strictly evaluate visual reasoning, we propose counterfactual charts where the chart-question task remains fixed, but underlying chart and the corresponding answer are varied. We introduce Chartographer, a framework to reverse engineer charts into executable code, validate reconstruction fidelity, generate seed-controlled counterfactual variants, and derive new answers from executable QA logic. We apply this framework to existing chart QA datasets and evaluate proprietary and open-source vision-language models (VLMs), measuring variation sensitivity and generalizability. Counterfactual charts reveal failures hidden by single-chart performance: VLMs often fail to generalize after answering the original chart correctly. We find failures are most prevalent when updated charts require novel visual reasoning pathways.