Automatisierte Generierung anspruchsvoller Multiple-Choice-Fragen zur Evaluation von Vision-Sprach-Modellen.
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
January 6, 2025
Autoren: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI
Zusammenfassung
Die rasante Entwicklung von Vision-Language-Modellen (VLMs) erfordert eine gründliche und zuverlässige Bewertung. Allerdings hängen aktuelle Benchmarks für visuelle Frage-Antwort-Systeme (VQA) oft von offenen Fragen ab, was aufgrund der Variabilität der natürlichen Sprachantworten eine genaue Bewertung erschwert. Um diesem Problem zu begegnen, stellen wir AutoConverter vor, ein agentisches Framework, das diese offenen Fragen automatisch in das Multiple-Choice-Format umwandelt. Dies ermöglicht eine objektive Bewertung und reduziert den kostspieligen Prozess der Frageerstellung. Unsere Experimente zeigen, dass AutoConverter korrekte und anspruchsvolle Multiple-Choice-Fragen generieren kann, wobei VLMs bei diesen Fragen im Vergleich zu von Menschen erstellten Fragen konsistent ähnliche oder niedrigere Genauigkeiten aufweisen. Unter Verwendung von AutoConverter erstellen wir VMCBench, einen Benchmark, der durch die Umwandlung von 20 bestehenden VQA-Datensätzen in ein einheitliches Multiple-Choice-Format erstellt wurde und insgesamt 9.018 Fragen umfasst. Wir evaluieren umfassend 33 hochmoderne VLMs auf VMCBench und setzen damit einen neuen Maßstab für skalierbare, konsistente und reproduzierbare VLM-Bewertungen.
English
The rapid development of vision language models (VLMs) demands rigorous and
reliable evaluation. However, current visual question answering (VQA)
benchmarks often depend on open-ended questions, making accurate evaluation
difficult due to the variability in natural language responses. To address
this, we introduce AutoConverter, an agentic framework that automatically
converts these open-ended questions into multiple-choice format, enabling
objective evaluation while reducing the costly question creation process. Our
experiments demonstrate that AutoConverter can generate correct and challenging
multiple-choice questions, with VLMs demonstrating consistently similar or
lower accuracy on these questions compared to human-created ones. Using
AutoConverter, we construct VMCBench, a benchmark created by transforming 20
existing VQA datasets into a unified multiple-choice format, totaling 9,018
questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench,
setting a new standard for scalable, consistent, and reproducible VLM
evaluation.Summary
AI-Generated Summary