ChatPaper.aiChatPaper

Génération automatisée de questions à choix multiples complexes pour l'évaluation des modèles de vision par ordinateur et de langage.

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

January 6, 2025
Auteurs: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI

Résumé

Le développement rapide des modèles de langage visuel (VLM) exige une évaluation rigoureuse et fiable. Cependant, les référentiels actuels de questions-réponses visuelles (VQA) dépendent souvent de questions ouvertes, ce qui rend l'évaluation précise difficile en raison de la variabilité des réponses en langage naturel. Pour remédier à cela, nous introduisons AutoConverter, un cadre agentique qui convertit automatiquement ces questions ouvertes en format à choix multiples, permettant une évaluation objective tout en réduisant le processus coûteux de création de questions. Nos expériences démontrent qu'AutoConverter peut générer des questions à choix multiples correctes et stimulantes, les VLM montrant une précision systématiquement similaire ou inférieure sur ces questions par rapport à celles créées par des humains. En utilisant AutoConverter, nous construisons VMCBench, un référentiel créé en transformant 20 ensembles de données VQA existants en un format unifié à choix multiples, totalisant 9 018 questions. Nous évaluons de manière exhaustive 33 VLM de pointe sur VMCBench, établissant ainsi une nouvelle norme pour l'évaluation évolutive, cohérente et reproductible des VLM.
English
The rapid development of vision language models (VLMs) demands rigorous and reliable evaluation. However, current visual question answering (VQA) benchmarks often depend on open-ended questions, making accurate evaluation difficult due to the variability in natural language responses. To address this, we introduce AutoConverter, an agentic framework that automatically converts these open-ended questions into multiple-choice format, enabling objective evaluation while reducing the costly question creation process. Our experiments demonstrate that AutoConverter can generate correct and challenging multiple-choice questions, with VLMs demonstrating consistently similar or lower accuracy on these questions compared to human-created ones. Using AutoConverter, we construct VMCBench, a benchmark created by transforming 20 existing VQA datasets into a unified multiple-choice format, totaling 9,018 questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench, setting a new standard for scalable, consistent, and reproducible VLM evaluation.

Summary

AI-Generated Summary

PDF72January 7, 2025