KOFFVQA: Ein objektiv evaluierter Benchmark für freiformulierte visuelle Frage-Antwort-Systeme für große Vision-Sprach-Modelle in der koreanischen Sprache
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language
March 31, 2025
Autoren: Yoonshik Kim, Jaeyoon Jung
cs.AI
Zusammenfassung
Das jüngste Aufkommen von großen visuell-sprachlichen Modellen (VLMs) hat eine Vielzahl unterschiedlicher Benchmarks zur Bewertung solcher Modelle hervorgebracht. Dennoch stellen wir fest, dass die meisten bestehenden Evaluierungsmethoden darunter leiden, dass sie entweder das Modell zwingen, aus vorgegebenen Antworten zu wählen, was die Offenheit einschränkt, oder die Antworten mithilfe eines Richtermodells bewerten, was zu subjektiven und unzuverlässigen Bewertungen führt. Darüber hinaus beobachten wir einen Mangel an Benchmarks für VLMs in der koreanischen Sprache, die als separates Maßstab von den häufigeren englischsprachigen Benchmarks notwendig sind, da die Leistung generativer Sprachmodelle je nach verwendeter Sprache erheblich variieren kann. Daher präsentieren wir KOFFVQA, einen allgemeinen, freiformulierten visuellen Frage-Antwort-Benchmark in koreanischer Sprache zur Bewertung von VLMs. Unser Benchmark besteht aus 275 sorgfältig erstellten Fragen, die jeweils mit einem Bild und Bewertungskriterien gepaart sind, die 10 verschiedene Aspekte der VLM-Leistung abdecken. Die Bewertungskriterien beseitigen das Problem der Unzuverlässigkeit, indem sie dem Richtermodell ermöglichen, jede Antwort anhand eines vordefinierten Regelwerks zu bewerten. Durch die objektive Definition der Bewertungskriterien kann selbst ein kleines Open-Source-Modell zuverlässig zur Bewertung von Modellen auf unserem Benchmark verwendet werden. Neben der Bewertung einer großen Anzahl bestehender VLMs auf unserem Benchmark überprüfen wir experimentell, dass unsere Methode der Verwendung bestehender Bewertungskriterien für die Bewertung wesentlich zuverlässiger ist als bestehende Methoden. Unser Evaluierungscode ist unter https://github.com/maum-ai/KOFFVQA verfügbar.
English
The recent emergence of Large Vision-Language Models(VLMs) has resulted in a
variety of different benchmarks for evaluating such models. Despite this, we
observe that most existing evaluation methods suffer from the fact that they
either require the model to choose from pre-determined responses, sacrificing
open-endedness, or evaluate responses using a judge model, resulting in
subjective and unreliable evaluation. In addition, we observe a lack of
benchmarks for VLMs in the Korean language, which are necessary as a separate
metric from more common English language benchmarks, as the performance of
generative language models can differ significantly based on the language being
used. Therefore, we present KOFFVQA, a general-purpose free-form visual
question answering benchmark in the Korean language for the evaluation of VLMs.
Our benchmark consists of 275 carefully crafted questions each paired with an
image and grading criteria covering 10 different aspects of VLM performance.
The grading criteria eliminate the problem of unreliability by allowing the
judge model to grade each response based on a pre-determined set of rules. By
defining the evaluation criteria in an objective manner, even a small
open-source model can be used to evaluate models on our benchmark reliably. In
addition to evaluating a large number of existing VLMs on our benchmark, we
also experimentally verify that our method of using pre-existing grading
criteria for evaluation is much more reliable than existing methods. Our
evaluation code is available at https://github.com/maum-ai/KOFFVQASummary
AI-Generated Summary