Автоматическое создание сложных тестовых вопросов с выбором ответа для оценки моделей обработки зрительной информации и языка.
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
January 6, 2025
Авторы: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI
Аннотация
Быстрое развитие моделей визуально-языкового восприятия (VLM) требует строгой и надежной оценки. Однако текущие бенчмарки визуального вопросно-ответного моделирования (VQA) часто зависят от открытых вопросов, что затрудняет точную оценку из-за изменчивости ответов на естественном языке. Для решения этой проблемы мы представляем AutoConverter, агентный фреймворк, который автоматически преобразует эти открытые вопросы в формат с выбором ответов, обеспечивая объективную оценку и сокращая затратный процесс создания вопросов. Наши эксперименты показывают, что AutoConverter способен генерировать правильные и сложные вопросы с выбором ответов, при этом VLM демонстрируют постоянно сходную или более низкую точность на этих вопросах по сравнению с вопросами, созданными людьми. Используя AutoConverter, мы создаем VMCBench, бенчмарк, созданный путем преобразования 20 существующих наборов данных VQA в унифицированный формат с выбором ответов, включающий 9 018 вопросов. Мы комплексно оцениваем 33 передовых моделей VLM на VMCBench, устанавливая новый стандарт для масштабной, последовательной и воспроизводимой оценки моделей VLM.
English
The rapid development of vision language models (VLMs) demands rigorous and
reliable evaluation. However, current visual question answering (VQA)
benchmarks often depend on open-ended questions, making accurate evaluation
difficult due to the variability in natural language responses. To address
this, we introduce AutoConverter, an agentic framework that automatically
converts these open-ended questions into multiple-choice format, enabling
objective evaluation while reducing the costly question creation process. Our
experiments demonstrate that AutoConverter can generate correct and challenging
multiple-choice questions, with VLMs demonstrating consistently similar or
lower accuracy on these questions compared to human-created ones. Using
AutoConverter, we construct VMCBench, a benchmark created by transforming 20
existing VQA datasets into a unified multiple-choice format, totaling 9,018
questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench,
setting a new standard for scalable, consistent, and reproducible VLM
evaluation.Summary
AI-Generated Summary