KOFFVQA: 韓国語における大規模視覚言語モデルのための客観的評価が可能な自由形式VQAベンチマーク
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language
March 31, 2025
著者: Yoonshik Kim, Jaeyoon Jung
cs.AI
要旨
大規模視覚言語モデル(VLMs)の最近の台頭により、そのようなモデルを評価するための多様なベンチマークが生まれています。しかしながら、既存の評価方法の多くは、事前に決められた回答から選択させることで開放性を犠牲にするか、または審査モデルを使用して回答を評価することで主観的で信頼性の低い評価につながるという問題を抱えていることが観察されます。さらに、韓国語におけるVLMsのベンチマークが不足していることも指摘されます。生成言語モデルの性能は使用される言語によって大きく異なるため、より一般的な英語のベンチマークとは別の指標として必要です。そこで、我々はKOFFVQAを提案します。これは、韓国語における汎用の自由形式視覚質問応答ベンチマークであり、VLMsの評価を目的としています。我々のベンチマークは、275の慎重に作成された質問と画像、そしてVLMの性能を10の異なる側面でカバーする評価基準で構成されています。評価基準は、審査モデルが事前に決められたルールに基づいて各回答を評価することを可能にすることで、信頼性の問題を排除します。評価基準を客観的に定義することで、小さなオープンソースモデルでも我々のベンチマーク上でモデルを信頼性高く評価することができます。我々のベンチマークで多数の既存VLMsを評価するだけでなく、既存の評価方法よりも我々の評価方法がはるかに信頼性が高いことを実験的に検証しました。我々の評価コードはhttps://github.com/maum-ai/KOFFVQAで公開されています。
English
The recent emergence of Large Vision-Language Models(VLMs) has resulted in a
variety of different benchmarks for evaluating such models. Despite this, we
observe that most existing evaluation methods suffer from the fact that they
either require the model to choose from pre-determined responses, sacrificing
open-endedness, or evaluate responses using a judge model, resulting in
subjective and unreliable evaluation. In addition, we observe a lack of
benchmarks for VLMs in the Korean language, which are necessary as a separate
metric from more common English language benchmarks, as the performance of
generative language models can differ significantly based on the language being
used. Therefore, we present KOFFVQA, a general-purpose free-form visual
question answering benchmark in the Korean language for the evaluation of VLMs.
Our benchmark consists of 275 carefully crafted questions each paired with an
image and grading criteria covering 10 different aspects of VLM performance.
The grading criteria eliminate the problem of unreliability by allowing the
judge model to grade each response based on a pre-determined set of rules. By
defining the evaluation criteria in an objective manner, even a small
open-source model can be used to evaluate models on our benchmark reliably. In
addition to evaluating a large number of existing VLMs on our benchmark, we
also experimentally verify that our method of using pre-existing grading
criteria for evaluation is much more reliable than existing methods. Our
evaluation code is available at https://github.com/maum-ai/KOFFVQASummary
AI-Generated Summary