Chartographer: контрфактическая генерация диаграмм для оценки визуально-языковых моделей

Аннотация

Бенчмарки вопросно-ответных систем (QA) по диаграммам ставят своей целью формулирование вопросов, требующих визуального рассуждения для правильного ответа, однако модели часто могут находить решения через shortcuts или предварительное знакомство с диаграммой, основанное на собственном фоновом знании. Для строгой оценки визуального рассуждения мы предлагаем контрфактические диаграммы, в которых задача «диаграмма–вопрос» остаётся фиксированной, а базовая диаграмма и соответствующий ответ варьируются. Мы представляем Chartographer — фреймворк для обратного проектирования диаграмм в исполняемый код, валидации точности реконструкции, генерации контрфактических вариантов с контролем начального зерна и получения новых ответов на основе исполнимой логики QA. Мы применяем этот фреймворк к существующим наборам данных QA по диаграммам и оцениваем проприетарные и открытые визуально-языковые модели (VLM), измеряя чувствительность к вариациям и обобщаемость. Контрфактические диаграммы выявляют ошибки, скрытые производительностью на одной диаграмме: VLM часто не в состоянии обобщить после правильного ответа на исходную диаграмму. Мы обнаруживаем, что ошибки наиболее распространены, когда обновлённые диаграммы требуют новых путей визуального рассуждения.

English

Chart question-answering (QA) benchmarks aim to pose questions that require visual reasoning to correctly answer, but models can often reach solutions through shortcuts or prior familiarity with a chart based on their own background knowledge. To strictly evaluate visual reasoning, we propose counterfactual charts where the chart-question task remains fixed, but underlying chart and the corresponding answer are varied. We introduce Chartographer, a framework to reverse engineer charts into executable code, validate reconstruction fidelity, generate seed-controlled counterfactual variants, and derive new answers from executable QA logic. We apply this framework to existing chart QA datasets and evaluate proprietary and open-source vision-language models (VLMs), measuring variation sensitivity and generalizability. Counterfactual charts reveal failures hidden by single-chart performance: VLMs often fail to generalize after answering the original chart correctly. We find failures are most prevalent when updated charts require novel visual reasoning pathways.