Chartographer: Geração de Gráficos Contrafactuais para Avaliação de Modelos de Visão-Linguagem

Resumo

Os benchmarks de perguntas e respostas sobre gráficos (QA) têm como objetivo propor perguntas que exijam raciocínio visual para serem respondidas corretamente, mas os modelos frequentemente podem chegar a soluções por meio de atalhos ou familiaridade prévia com um gráfico com base em seu próprio conhecimento de fundo. Para avaliar rigorosamente o raciocínio visual, propomos gráficos contrafactuais onde a tarefa de pergunta sobre gráfico permanece fixa, mas o gráfico subjacente e a resposta correspondente são variados. Introduzimos o Chartographer, uma estrutura para realizar reengenharia reversa de gráficos em código executável, validar a fidelidade de reconstrução, gerar variantes contrafactuais controladas por semente e derivar novas respostas a partir da lógica executável de QA. Aplicamos essa estrutura a conjuntos de dados existentes de QA sobre gráficos e avaliamos modelos de visão e linguagem (VLMs) proprietários e de código aberto, medindo a sensibilidade à variação e a generalizabilidade. Os gráficos contrafactuais revelam falhas ocultas pelo desempenho em gráfico único: VLMs frequentemente falham em generalizar depois de responder corretamente ao gráfico original. Descobrimos que as falhas são mais prevalentes quando gráficos atualizados exigem novos caminhos de raciocínio visual.

English

Chart question-answering (QA) benchmarks aim to pose questions that require visual reasoning to correctly answer, but models can often reach solutions through shortcuts or prior familiarity with a chart based on their own background knowledge. To strictly evaluate visual reasoning, we propose counterfactual charts where the chart-question task remains fixed, but underlying chart and the corresponding answer are varied. We introduce Chartographer, a framework to reverse engineer charts into executable code, validate reconstruction fidelity, generate seed-controlled counterfactual variants, and derive new answers from executable QA logic. We apply this framework to existing chart QA datasets and evaluate proprietary and open-source vision-language models (VLMs), measuring variation sensitivity and generalizability. Counterfactual charts reveal failures hidden by single-chart performance: VLMs often fail to generalize after answering the original chart correctly. We find failures are most prevalent when updated charts require novel visual reasoning pathways.