Generación Automatizada de Preguntas de Opción Múltiple Desafiantes para la Evaluación de Modelos de Visión y Lenguaje
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
January 6, 2025
Autores: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI
Resumen
El rápido desarrollo de los modelos de lenguaje visual (VLMs) exige una evaluación rigurosa y confiable. Sin embargo, los actuales puntos de referencia de respuesta a preguntas visuales (VQA) a menudo dependen de preguntas abiertas, lo que dificulta la evaluación precisa debido a la variabilidad en las respuestas en lenguaje natural. Para abordar esto, presentamos AutoConverter, un marco agente que convierte automáticamente estas preguntas abiertas en formato de opción múltiple, permitiendo una evaluación objetiva al tiempo que reduce el costoso proceso de creación de preguntas. Nuestros experimentos demuestran que AutoConverter puede generar preguntas de opción múltiple correctas y desafiantes, con los VLMs demostrando una precisión consistentemente similar o inferior en estas preguntas en comparación con las creadas por humanos. Utilizando AutoConverter, construimos VMCBench, un punto de referencia creado transformando 20 conjuntos de datos VQA existentes en un formato unificado de opción múltiple, con un total de 9,018 preguntas. Evaluamos exhaustivamente 33 VLMs de última generación en VMCBench, estableciendo un nuevo estándar para la evaluación escalable, consistente y reproducible de VLMs.
English
The rapid development of vision language models (VLMs) demands rigorous and
reliable evaluation. However, current visual question answering (VQA)
benchmarks often depend on open-ended questions, making accurate evaluation
difficult due to the variability in natural language responses. To address
this, we introduce AutoConverter, an agentic framework that automatically
converts these open-ended questions into multiple-choice format, enabling
objective evaluation while reducing the costly question creation process. Our
experiments demonstrate that AutoConverter can generate correct and challenging
multiple-choice questions, with VLMs demonstrating consistently similar or
lower accuracy on these questions compared to human-created ones. Using
AutoConverter, we construct VMCBench, a benchmark created by transforming 20
existing VQA datasets into a unified multiple-choice format, totaling 9,018
questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench,
setting a new standard for scalable, consistent, and reproducible VLM
evaluation.Summary
AI-Generated Summary