KOFFVQA: Un punto de referencia de preguntas y respuestas visuales de forma libre evaluado objetivamente para modelos grandes de visión y lenguaje en el idioma coreano

Resumen

El reciente surgimiento de los Modelos de Visión y Lenguaje a Gran Escala (VLMs, por sus siglas en inglés) ha dado lugar a una variedad de benchmarks diferentes para evaluar dichos modelos. Sin embargo, observamos que la mayoría de los métodos de evaluación existentes adolecen del hecho de que, o bien requieren que el modelo elija entre respuestas predeterminadas, sacrificando la apertura, o bien evalúan las respuestas utilizando un modelo juez, lo que resulta en una evaluación subjetiva y poco confiable. Además, observamos una falta de benchmarks para VLMs en el idioma coreano, los cuales son necesarios como una métrica separada de los benchmarks más comunes en inglés, ya que el rendimiento de los modelos generativos de lenguaje puede variar significativamente según el idioma utilizado. Por lo tanto, presentamos KOFFVQA, un benchmark de propósito general de preguntas y respuestas visuales de formato libre en el idioma coreano para la evaluación de VLMs. Nuestro benchmark consta de 275 preguntas cuidadosamente elaboradas, cada una emparejada con una imagen y criterios de calificación que cubren 10 aspectos diferentes del rendimiento de los VLMs. Los criterios de calificación eliminan el problema de la falta de confiabilidad al permitir que el modelo juez califique cada respuesta basándose en un conjunto de reglas predeterminadas. Al definir los criterios de evaluación de manera objetiva, incluso un modelo pequeño de código abierto puede utilizarse para evaluar modelos en nuestro benchmark de manera confiable. Además de evaluar un gran número de VLMs existentes en nuestro benchmark, también verificamos experimentalmente que nuestro método de utilizar criterios de calificación preexistentes para la evaluación es mucho más confiable que los métodos existentes. Nuestro código de evaluación está disponible en https://github.com/maum-ai/KOFFVQA.

English

The recent emergence of Large Vision-Language Models(VLMs) has resulted in a variety of different benchmarks for evaluating such models. Despite this, we observe that most existing evaluation methods suffer from the fact that they either require the model to choose from pre-determined responses, sacrificing open-endedness, or evaluate responses using a judge model, resulting in subjective and unreliable evaluation. In addition, we observe a lack of benchmarks for VLMs in the Korean language, which are necessary as a separate metric from more common English language benchmarks, as the performance of generative language models can differ significantly based on the language being used. Therefore, we present KOFFVQA, a general-purpose free-form visual question answering benchmark in the Korean language for the evaluation of VLMs. Our benchmark consists of 275 carefully crafted questions each paired with an image and grading criteria covering 10 different aspects of VLM performance. The grading criteria eliminate the problem of unreliability by allowing the judge model to grade each response based on a pre-determined set of rules. By defining the evaluation criteria in an objective manner, even a small open-source model can be used to evaluate models on our benchmark reliably. In addition to evaluating a large number of existing VLMs on our benchmark, we also experimentally verify that our method of using pre-existing grading criteria for evaluation is much more reliable than existing methods. Our evaluation code is available at https://github.com/maum-ai/KOFFVQA

KOFFVQA: Un punto de referencia de preguntas y respuestas visuales de forma libre evaluado objetivamente para modelos grandes de visión y lenguaje en el idioma coreano

KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language

Resumen

Support