KOFFVQA: Um Benchmark de VQA de Formato Livre Avaliado Objetivamente para Grandes Modelos de Visão e Linguagem na Língua Coreana
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language
March 31, 2025
Autores: Yoonshik Kim, Jaeyoon Jung
cs.AI
Resumo
O recente surgimento de Grandes Modelos de Visão e Linguagem (VLMs) resultou em uma variedade de benchmarks diferentes para avaliar tais modelos. Apesar disso, observamos que a maioria dos métodos de avaliação existentes sofre com o fato de que eles exigem que o modelo escolha entre respostas pré-determinadas, sacrificando a abertura, ou avaliam as respostas usando um modelo juiz, resultando em uma avaliação subjetiva e pouco confiável. Além disso, observamos uma falta de benchmarks para VLMs na língua coreana, que são necessários como uma métrica separada dos benchmarks mais comuns em inglês, já que o desempenho de modelos generativos de linguagem pode variar significativamente com base no idioma utilizado. Portanto, apresentamos o KOFFVQA, um benchmark de resposta a perguntas visuais de forma livre e de propósito geral na língua coreana para a avaliação de VLMs. Nosso benchmark consiste em 275 perguntas cuidadosamente elaboradas, cada uma acompanhada de uma imagem e critérios de avaliação que cobrem 10 aspectos diferentes do desempenho de VLMs. Os critérios de avaliação eliminam o problema da falta de confiabilidade, permitindo que o modelo juiz avalie cada resposta com base em um conjunto de regras pré-determinadas. Ao definir os critérios de avaliação de maneira objetiva, até mesmo um pequeno modelo de código aberto pode ser usado para avaliar modelos em nosso benchmark de forma confiável. Além de avaliar um grande número de VLMs existentes em nosso benchmark, também verificamos experimentalmente que nosso método de usar critérios de avaliação pré-existentes é muito mais confiável do que os métodos atuais. Nosso código de avaliação está disponível em https://github.com/maum-ai/KOFFVQA.
English
The recent emergence of Large Vision-Language Models(VLMs) has resulted in a
variety of different benchmarks for evaluating such models. Despite this, we
observe that most existing evaluation methods suffer from the fact that they
either require the model to choose from pre-determined responses, sacrificing
open-endedness, or evaluate responses using a judge model, resulting in
subjective and unreliable evaluation. In addition, we observe a lack of
benchmarks for VLMs in the Korean language, which are necessary as a separate
metric from more common English language benchmarks, as the performance of
generative language models can differ significantly based on the language being
used. Therefore, we present KOFFVQA, a general-purpose free-form visual
question answering benchmark in the Korean language for the evaluation of VLMs.
Our benchmark consists of 275 carefully crafted questions each paired with an
image and grading criteria covering 10 different aspects of VLM performance.
The grading criteria eliminate the problem of unreliability by allowing the
judge model to grade each response based on a pre-determined set of rules. By
defining the evaluation criteria in an objective manner, even a small
open-source model can be used to evaluate models on our benchmark reliably. In
addition to evaluating a large number of existing VLMs on our benchmark, we
also experimentally verify that our method of using pre-existing grading
criteria for evaluation is much more reliable than existing methods. Our
evaluation code is available at https://github.com/maum-ai/KOFFVQASummary
AI-Generated Summary