CapArena: Benchmarken en analyseren van gedetailleerde beeldbeschrijvingen in het tijdperk van grote taalmodellen
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
March 16, 2025
Auteurs: Kanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen
cs.AI
Samenvatting
Beeldbeschrijving is al lang een uitdaging in het onderzoek naar visie en taal. Met de opkomst van LLM's genereren moderne Vision-Language Models (VLM's) gedetailleerde en uitgebreide beeldbeschrijvingen. Het benchmarken van de kwaliteit van dergelijke beschrijvingen blijft echter een onopgelost probleem. Dit artikel behandelt twee belangrijke vragen: (1) Hoe goed presteren huidige VLM's eigenlijk op het gebied van beeldbeschrijving, vooral in vergelijking met mensen? We hebben CapArena gebouwd, een platform met meer dan 6000 paarswijze beschrijvingsgevechten en hoogwaardige voorkeursstemmen van mensen. Onze arena-stijl evaluatie markeert een mijlpaal, waaruit blijkt dat toonaangevende modellen zoals GPT-4o de menselijke prestaties evenaren of zelfs overtreffen, terwijl de meeste open-source modellen achterblijven. (2) Kunnen geautomatiseerde metrieken de kwaliteit van gedetailleerde beschrijvingen betrouwbaar beoordelen? Met behulp van menselijke annotaties van CapArena evalueren we traditionele en recente beschrijvingsmetrieken, evenals VLM-as-a-Judge. Onze analyse toont aan dat hoewel sommige metrieken (bijv. METEOR) een redelijke overeenkomst op beschrijvingsniveau met mensen vertonen, hun systematische vooroordelen leiden tot inconsistenties in modelrangschikking. Daarentegen toont VLM-as-a-Judge een robuust onderscheidingsvermogen op zowel het beschrijvings- als het modelniveau. Op basis van deze inzichten brengen we CapArena-Auto uit, een nauwkeurige en efficiënte geautomatiseerde benchmark voor gedetailleerde beeldbeschrijving, die een correlatie van 94,3% met menselijke rangschikkingen bereikt tegen slechts $4 per test. Data en bronnen worden openbaar gemaakt op https://caparena.github.io.
English
Image captioning has been a longstanding challenge in vision-language
research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate
detailed and comprehensive image descriptions. However, benchmarking the
quality of such captions remains unresolved. This paper addresses two key
questions: (1) How well do current VLMs actually perform on image captioning,
particularly compared to humans? We built CapArena, a platform with over 6000
pairwise caption battles and high-quality human preference votes. Our
arena-style evaluation marks a milestone, showing that leading models like
GPT-4o achieve or even surpass human performance, while most open-source models
lag behind. (2) Can automated metrics reliably assess detailed caption quality?
Using human annotations from CapArena, we evaluate traditional and recent
captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while
some metrics (e.g., METEOR) show decent caption-level agreement with humans,
their systematic biases lead to inconsistencies in model ranking. In contrast,
VLM-as-a-Judge demonstrates robust discernment at both the caption and model
levels. Building on these insights, we release CapArena-Auto, an accurate and
efficient automated benchmark for detailed captioning, achieving 94.3%
correlation with human rankings at just $4 per test. Data and resources will be
open-sourced at https://caparena.github.io.Summary
AI-Generated Summary