KOFFVQA: 한국어 대규모 시각-언어 모델을 위한 객관적 평가가 가능한 자유형 시각 질의응답 벤치마크
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language
March 31, 2025
저자: Yoonshik Kim, Jaeyoon Jung
cs.AI
초록
최근 대규모 시각-언어 모델(VLMs)의 등장으로 이러한 모델을 평가하기 위한 다양한 벤치마크가 개발되었습니다. 그러나 우리는 기존 평가 방법들이 대부분 사전에 정의된 응답 중에서 선택하도록 요구함으로써 개방성을 희생하거나, 판단 모델을 사용하여 응답을 평가함으로써 주관적이고 신뢰할 수 없는 평가를 초래한다는 점을 관찰했습니다. 또한, 한국어로 된 VLMs 벤치마크가 부족하다는 점을 발견했는데, 이는 생성형 언어 모델의 성능이 사용되는 언어에 따라 크게 달라질 수 있기 때문에 더 일반적인 영어 벤치마크와는 별도의 지표로 필요합니다. 따라서 우리는 한국어로 된 일반 목적의 자유 형식 시각 질의응답 벤치마크인 KOFFVQA를 제안합니다. 우리의 벤치마크는 각각 이미지와 함께 제공되는 275개의 신중하게 구성된 질문과 VLMs 성능의 10가지 다른 측면을 다루는 채점 기준으로 구성되어 있습니다. 채점 기준은 판단 모델이 사전에 정의된 규칙 집합을 기반으로 각 응답을 평가할 수 있도록 함으로써 신뢰성 문제를 제거합니다. 평가 기준을 객관적인 방식으로 정의함으로써, 심지어 소규모 오픈소스 모델도 우리의 벤치마크에서 모델을 신뢰할 수 있게 평가할 수 있습니다. 우리는 기존의 많은 VLMs을 우리의 벤치마크에서 평가하는 것 외에도, 기존 채점 기준을 사용한 평가 방법이 기존 방법보다 훨씬 더 신뢰할 수 있음을 실험적으로 검증했습니다. 우리의 평가 코드는 https://github.com/maum-ai/KOFFVQA에서 확인할 수 있습니다.
English
The recent emergence of Large Vision-Language Models(VLMs) has resulted in a
variety of different benchmarks for evaluating such models. Despite this, we
observe that most existing evaluation methods suffer from the fact that they
either require the model to choose from pre-determined responses, sacrificing
open-endedness, or evaluate responses using a judge model, resulting in
subjective and unreliable evaluation. In addition, we observe a lack of
benchmarks for VLMs in the Korean language, which are necessary as a separate
metric from more common English language benchmarks, as the performance of
generative language models can differ significantly based on the language being
used. Therefore, we present KOFFVQA, a general-purpose free-form visual
question answering benchmark in the Korean language for the evaluation of VLMs.
Our benchmark consists of 275 carefully crafted questions each paired with an
image and grading criteria covering 10 different aspects of VLM performance.
The grading criteria eliminate the problem of unreliability by allowing the
judge model to grade each response based on a pre-determined set of rules. By
defining the evaluation criteria in an objective manner, even a small
open-source model can be used to evaluate models on our benchmark reliably. In
addition to evaluating a large number of existing VLMs on our benchmark, we
also experimentally verify that our method of using pre-existing grading
criteria for evaluation is much more reliable than existing methods. Our
evaluation code is available at https://github.com/maum-ai/KOFFVQASummary
AI-Generated Summary