KOFFVQA: Объективно оцениваемый эталонный тест для свободного визуального вопроса-ответа на корейском языке для крупных моделей обработки зрения и языка
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language
March 31, 2025
Авторы: Yoonshik Kim, Jaeyoon Jung
cs.AI
Аннотация
Недавнее появление крупных визуально-языковых моделей (VLM) привело к созданию множества различных бенчмарков для их оценки. Однако мы отмечаем, что большинство существующих методов оценки страдают от того, что либо требуют от модели выбора из заранее определенных ответов, жертвуя открытостью, либо оценивают ответы с помощью модели-судьи, что приводит к субъективной и ненадежной оценке. Кроме того, мы наблюдаем отсутствие бенчмарков для VLM на корейском языке, которые необходимы как отдельный показатель в отличие от более распространенных бенчмарков на английском языке, поскольку производительность генеративных языковых моделей может значительно различаться в зависимости от используемого языка. Поэтому мы представляем KOFFVQA — универсальный бенчмарк для свободного визуального ответа на вопросы на корейском языке, предназначенный для оценки VLM. Наш бенчмарк состоит из 275 тщательно разработанных вопросов, каждый из которых сопровождается изображением и критериями оценки, охватывающими 10 различных аспектов работы VLM. Критерии оценки устраняют проблему ненадежности, позволяя модели-судье оценивать каждый ответ на основе заранее определенного набора правил. Благодаря объективному определению критериев оценки, даже небольшая модель с открытым исходным кодом может быть использована для надежной оценки моделей на нашем бенчмарке. В дополнение к оценке большого числа существующих VLM на нашем бенчмарке, мы также экспериментально подтверждаем, что наш метод использования заранее определенных критериев оценки значительно надежнее существующих методов. Наш код оценки доступен по адресу https://github.com/maum-ai/KOFFVQA.
English
The recent emergence of Large Vision-Language Models(VLMs) has resulted in a
variety of different benchmarks for evaluating such models. Despite this, we
observe that most existing evaluation methods suffer from the fact that they
either require the model to choose from pre-determined responses, sacrificing
open-endedness, or evaluate responses using a judge model, resulting in
subjective and unreliable evaluation. In addition, we observe a lack of
benchmarks for VLMs in the Korean language, which are necessary as a separate
metric from more common English language benchmarks, as the performance of
generative language models can differ significantly based on the language being
used. Therefore, we present KOFFVQA, a general-purpose free-form visual
question answering benchmark in the Korean language for the evaluation of VLMs.
Our benchmark consists of 275 carefully crafted questions each paired with an
image and grading criteria covering 10 different aspects of VLM performance.
The grading criteria eliminate the problem of unreliability by allowing the
judge model to grade each response based on a pre-determined set of rules. By
defining the evaluation criteria in an objective manner, even a small
open-source model can be used to evaluate models on our benchmark reliably. In
addition to evaluating a large number of existing VLMs on our benchmark, we
also experimentally verify that our method of using pre-existing grading
criteria for evaluation is much more reliable than existing methods. Our
evaluation code is available at https://github.com/maum-ai/KOFFVQASummary
AI-Generated Summary