KOFFVQA: Een objectief geëvalueerde, vrij vormgegeven VQA-benchmark voor grote visueel-taalkundige modellen in de Koreaanse taal
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language
March 31, 2025
Auteurs: Yoonshik Kim, Jaeyoon Jung
cs.AI
Samenvatting
De recente opkomst van Large Vision-Language Models (VLMs) heeft geleid tot een verscheidenheid aan verschillende benchmarks voor het evalueren van dergelijke modellen. Desondanks merken we op dat de meeste bestaande evaluatiemethoden het probleem hebben dat ze ofwel vereisen dat het model kiest uit vooraf bepaalde antwoorden, wat de openheid beperkt, ofwel de antwoorden evalueren met behulp van een beoordelingsmodel, wat resulteert in subjectieve en onbetrouwbare evaluatie. Daarnaast constateren we een gebrek aan benchmarks voor VLMs in de Koreaanse taal, die nodig zijn als een aparte maatstaf naast de meer gebruikelijke Engelstalige benchmarks, aangezien de prestaties van generatieve taalmodellen aanzienlijk kunnen verschillen afhankelijk van de gebruikte taal. Daarom presenteren we KOFFVQA, een algemeen vrij-vorm visueel vraag-antwoord benchmark in de Koreaanse taal voor de evaluatie van VLMs. Onze benchmark bestaat uit 275 zorgvuldig opgestelde vragen, elk gekoppeld aan een afbeelding en beoordelingscriteria die 10 verschillende aspecten van VLM-prestaties bestrijken. De beoordelingscriteria elimineren het probleem van onbetrouwbaarheid door het beoordelingsmodel in staat te stellen elk antwoord te beoordelen op basis van een vooraf bepaalde set regels. Door de evaluatiecriteria op een objectieve manier te definiëren, kan zelfs een klein open-source model betrouwbaar worden gebruikt om modellen op onze benchmark te evalueren. Naast het evalueren van een groot aantal bestaande VLMs op onze benchmark, verifiëren we ook experimenteel dat onze methode van het gebruik van bestaande beoordelingscriteria voor evaluatie veel betrouwbaarder is dan bestaande methoden. Onze evaluatiecode is beschikbaar op https://github.com/maum-ai/KOFFVQA.
English
The recent emergence of Large Vision-Language Models(VLMs) has resulted in a
variety of different benchmarks for evaluating such models. Despite this, we
observe that most existing evaluation methods suffer from the fact that they
either require the model to choose from pre-determined responses, sacrificing
open-endedness, or evaluate responses using a judge model, resulting in
subjective and unreliable evaluation. In addition, we observe a lack of
benchmarks for VLMs in the Korean language, which are necessary as a separate
metric from more common English language benchmarks, as the performance of
generative language models can differ significantly based on the language being
used. Therefore, we present KOFFVQA, a general-purpose free-form visual
question answering benchmark in the Korean language for the evaluation of VLMs.
Our benchmark consists of 275 carefully crafted questions each paired with an
image and grading criteria covering 10 different aspects of VLM performance.
The grading criteria eliminate the problem of unreliability by allowing the
judge model to grade each response based on a pre-determined set of rules. By
defining the evaluation criteria in an objective manner, even a small
open-source model can be used to evaluate models on our benchmark reliably. In
addition to evaluating a large number of existing VLMs on our benchmark, we
also experimentally verify that our method of using pre-existing grading
criteria for evaluation is much more reliable than existing methods. Our
evaluation code is available at https://github.com/maum-ai/KOFFVQASummary
AI-Generated Summary