ChatPaper.aiChatPaper

Автоматическое создание сложных тестовых вопросов с выбором ответа для оценки моделей обработки зрительной информации и языка.

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

January 6, 2025
Авторы: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI

Аннотация

Быстрое развитие моделей визуально-языкового восприятия (VLM) требует строгой и надежной оценки. Однако текущие бенчмарки визуального вопросно-ответного моделирования (VQA) часто зависят от открытых вопросов, что затрудняет точную оценку из-за изменчивости ответов на естественном языке. Для решения этой проблемы мы представляем AutoConverter, агентный фреймворк, который автоматически преобразует эти открытые вопросы в формат с выбором ответов, обеспечивая объективную оценку и сокращая затратный процесс создания вопросов. Наши эксперименты показывают, что AutoConverter способен генерировать правильные и сложные вопросы с выбором ответов, при этом VLM демонстрируют постоянно сходную или более низкую точность на этих вопросах по сравнению с вопросами, созданными людьми. Используя AutoConverter, мы создаем VMCBench, бенчмарк, созданный путем преобразования 20 существующих наборов данных VQA в унифицированный формат с выбором ответов, включающий 9 018 вопросов. Мы комплексно оцениваем 33 передовых моделей VLM на VMCBench, устанавливая новый стандарт для масштабной, последовательной и воспроизводимой оценки моделей VLM.
English
The rapid development of vision language models (VLMs) demands rigorous and reliable evaluation. However, current visual question answering (VQA) benchmarks often depend on open-ended questions, making accurate evaluation difficult due to the variability in natural language responses. To address this, we introduce AutoConverter, an agentic framework that automatically converts these open-ended questions into multiple-choice format, enabling objective evaluation while reducing the costly question creation process. Our experiments demonstrate that AutoConverter can generate correct and challenging multiple-choice questions, with VLMs demonstrating consistently similar or lower accuracy on these questions compared to human-created ones. Using AutoConverter, we construct VMCBench, a benchmark created by transforming 20 existing VQA datasets into a unified multiple-choice format, totaling 9,018 questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench, setting a new standard for scalable, consistent, and reproducible VLM evaluation.

Summary

AI-Generated Summary

PDF72January 7, 2025