Geautomatiseerde Generatie van Uitdagende Meerkeuzevragen voor de Evaluatie van Visie-Taalmodel
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
January 6, 2025
Auteurs: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy
cs.AI
Samenvatting
De snelle ontwikkeling van visie-taalmodellen (VLM's) vereist een grondige en betrouwbare evaluatie. Echter, huidige benchmarks voor visuele vraagbeantwoording (VQA) zijn vaak afhankelijk van open vragen, waardoor nauwkeurige evaluatie lastig is vanwege de variabiliteit in natuurlijke taal antwoorden. Om dit aan te pakken, introduceren we AutoConverter, een agentisch raamwerk dat deze open vragen automatisch omzet in meerkeuzevragen, waardoor objectieve evaluatie mogelijk wordt terwijl het kostbare proces van vraagcreatie wordt verminderd. Onze experimenten tonen aan dat AutoConverter correcte en uitdagende meerkeuzevragen kan genereren, waarbij VLM's consequent vergelijkbare of lagere nauwkeurigheid laten zien op deze vragen in vergelijking met door mensen gecreëerde vragen. Met behulp van AutoConverter construeren we VMCBench, een benchmark gecreëerd door 20 bestaande VQA-datasets om te zetten naar een uniforme meerkeuzevraagstelling, met in totaal 9.018 vragen. We evalueren uitgebreid 33 toonaangevende VLM's op VMCBench, waarbij we een nieuwe standaard zetten voor schaalbare, consistente en reproduceerbare evaluatie van VLM's.
English
The rapid development of vision language models (VLMs) demands rigorous and
reliable evaluation. However, current visual question answering (VQA)
benchmarks often depend on open-ended questions, making accurate evaluation
difficult due to the variability in natural language responses. To address
this, we introduce AutoConverter, an agentic framework that automatically
converts these open-ended questions into multiple-choice format, enabling
objective evaluation while reducing the costly question creation process. Our
experiments demonstrate that AutoConverter can generate correct and challenging
multiple-choice questions, with VLMs demonstrating consistently similar or
lower accuracy on these questions compared to human-created ones. Using
AutoConverter, we construct VMCBench, a benchmark created by transforming 20
existing VQA datasets into a unified multiple-choice format, totaling 9,018
questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench,
setting a new standard for scalable, consistent, and reproducible VLM
evaluation.Summary
AI-Generated Summary