KOFFVQA: Un punto de referencia de preguntas y respuestas visuales de forma libre evaluado objetivamente para modelos grandes de visión y lenguaje en el idioma coreano
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language
March 31, 2025
Autores: Yoonshik Kim, Jaeyoon Jung
cs.AI
Resumen
El reciente surgimiento de los Modelos de Visión y Lenguaje a Gran Escala (VLMs, por sus siglas en inglés) ha dado lugar a una variedad de benchmarks diferentes para evaluar dichos modelos. Sin embargo, observamos que la mayoría de los métodos de evaluación existentes adolecen del hecho de que, o bien requieren que el modelo elija entre respuestas predeterminadas, sacrificando la apertura, o bien evalúan las respuestas utilizando un modelo juez, lo que resulta en una evaluación subjetiva y poco confiable. Además, observamos una falta de benchmarks para VLMs en el idioma coreano, los cuales son necesarios como una métrica separada de los benchmarks más comunes en inglés, ya que el rendimiento de los modelos generativos de lenguaje puede variar significativamente según el idioma utilizado. Por lo tanto, presentamos KOFFVQA, un benchmark de propósito general de preguntas y respuestas visuales de formato libre en el idioma coreano para la evaluación de VLMs. Nuestro benchmark consta de 275 preguntas cuidadosamente elaboradas, cada una emparejada con una imagen y criterios de calificación que cubren 10 aspectos diferentes del rendimiento de los VLMs. Los criterios de calificación eliminan el problema de la falta de confiabilidad al permitir que el modelo juez califique cada respuesta basándose en un conjunto de reglas predeterminadas. Al definir los criterios de evaluación de manera objetiva, incluso un modelo pequeño de código abierto puede utilizarse para evaluar modelos en nuestro benchmark de manera confiable. Además de evaluar un gran número de VLMs existentes en nuestro benchmark, también verificamos experimentalmente que nuestro método de utilizar criterios de calificación preexistentes para la evaluación es mucho más confiable que los métodos existentes. Nuestro código de evaluación está disponible en https://github.com/maum-ai/KOFFVQA.
English
The recent emergence of Large Vision-Language Models(VLMs) has resulted in a
variety of different benchmarks for evaluating such models. Despite this, we
observe that most existing evaluation methods suffer from the fact that they
either require the model to choose from pre-determined responses, sacrificing
open-endedness, or evaluate responses using a judge model, resulting in
subjective and unreliable evaluation. In addition, we observe a lack of
benchmarks for VLMs in the Korean language, which are necessary as a separate
metric from more common English language benchmarks, as the performance of
generative language models can differ significantly based on the language being
used. Therefore, we present KOFFVQA, a general-purpose free-form visual
question answering benchmark in the Korean language for the evaluation of VLMs.
Our benchmark consists of 275 carefully crafted questions each paired with an
image and grading criteria covering 10 different aspects of VLM performance.
The grading criteria eliminate the problem of unreliability by allowing the
judge model to grade each response based on a pre-determined set of rules. By
defining the evaluation criteria in an objective manner, even a small
open-source model can be used to evaluate models on our benchmark reliably. In
addition to evaluating a large number of existing VLMs on our benchmark, we
also experimentally verify that our method of using pre-existing grading
criteria for evaluation is much more reliable than existing methods. Our
evaluation code is available at https://github.com/maum-ai/KOFFVQASummary
AI-Generated Summary