ChatPaper.aiChatPaper

KOFFVQA : Un benchmark de questions-réponses libres objectivement évalué pour les grands modèles vision-langage dans la langue coréenne

KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language

March 31, 2025
Auteurs: Yoonshik Kim, Jaeyoon Jung
cs.AI

Résumé

L'émergence récente des grands modèles vision-langage (VLMs) a conduit à une variété de benchmarks pour évaluer ces modèles. Cependant, nous observons que la plupart des méthodes d'évaluation existantes souffrent du fait qu'elles obligent le modèle à choisir parmi des réponses prédéterminées, sacrifiant ainsi l'ouverture, ou qu'elles évaluent les réponses à l'aide d'un modèle juge, ce qui entraîne une évaluation subjective et peu fiable. De plus, nous constatons un manque de benchmarks pour les VLMs en langue coréenne, qui sont nécessaires comme métrique distincte des benchmarks plus courants en anglais, car les performances des modèles de langage génératifs peuvent varier considérablement selon la langue utilisée. Par conséquent, nous présentons KOFFVQA, un benchmark de question-réponse visuelle libre et généraliste en langue coréenne pour l'évaluation des VLMs. Notre benchmark comprend 275 questions soigneusement élaborées, chacune associée à une image et à des critères de notation couvrant 10 aspects différents de la performance des VLMs. Les critères de notation éliminent le problème de la fiabilité en permettant au modèle juge de noter chaque réponse sur la base d'un ensemble de règles prédéfinies. En définissant les critères d'évaluation de manière objective, même un petit modèle open-source peut être utilisé pour évaluer les modèles sur notre benchmark de manière fiable. En plus d'évaluer un grand nombre de VLMs existants sur notre benchmark, nous vérifions également expérimentalement que notre méthode d'utilisation de critères de notation préexistants pour l'évaluation est beaucoup plus fiable que les méthodes existantes. Notre code d'évaluation est disponible à l'adresse https://github.com/maum-ai/KOFFVQA.
English
The recent emergence of Large Vision-Language Models(VLMs) has resulted in a variety of different benchmarks for evaluating such models. Despite this, we observe that most existing evaluation methods suffer from the fact that they either require the model to choose from pre-determined responses, sacrificing open-endedness, or evaluate responses using a judge model, resulting in subjective and unreliable evaluation. In addition, we observe a lack of benchmarks for VLMs in the Korean language, which are necessary as a separate metric from more common English language benchmarks, as the performance of generative language models can differ significantly based on the language being used. Therefore, we present KOFFVQA, a general-purpose free-form visual question answering benchmark in the Korean language for the evaluation of VLMs. Our benchmark consists of 275 carefully crafted questions each paired with an image and grading criteria covering 10 different aspects of VLM performance. The grading criteria eliminate the problem of unreliability by allowing the judge model to grade each response based on a pre-determined set of rules. By defining the evaluation criteria in an objective manner, even a small open-source model can be used to evaluate models on our benchmark reliably. In addition to evaluating a large number of existing VLMs on our benchmark, we also experimentally verify that our method of using pre-existing grading criteria for evaluation is much more reliable than existing methods. Our evaluation code is available at https://github.com/maum-ai/KOFFVQA

Summary

AI-Generated Summary

PDF42April 1, 2025