CapArena: Benchmarken en analyseren van gedetailleerde beeldbeschrijvingen in het tijdperk van grote taalmodellen

Samenvatting

Beeldbeschrijving is al lang een uitdaging in het onderzoek naar visie en taal. Met de opkomst van LLM's genereren moderne Vision-Language Models (VLM's) gedetailleerde en uitgebreide beeldbeschrijvingen. Het benchmarken van de kwaliteit van dergelijke beschrijvingen blijft echter een onopgelost probleem. Dit artikel behandelt twee belangrijke vragen: (1) Hoe goed presteren huidige VLM's eigenlijk op het gebied van beeldbeschrijving, vooral in vergelijking met mensen? We hebben CapArena gebouwd, een platform met meer dan 6000 paarswijze beschrijvingsgevechten en hoogwaardige voorkeursstemmen van mensen. Onze arena-stijl evaluatie markeert een mijlpaal, waaruit blijkt dat toonaangevende modellen zoals GPT-4o de menselijke prestaties evenaren of zelfs overtreffen, terwijl de meeste open-source modellen achterblijven. (2) Kunnen geautomatiseerde metrieken de kwaliteit van gedetailleerde beschrijvingen betrouwbaar beoordelen? Met behulp van menselijke annotaties van CapArena evalueren we traditionele en recente beschrijvingsmetrieken, evenals VLM-as-a-Judge. Onze analyse toont aan dat hoewel sommige metrieken (bijv. METEOR) een redelijke overeenkomst op beschrijvingsniveau met mensen vertonen, hun systematische vooroordelen leiden tot inconsistenties in modelrangschikking. Daarentegen toont VLM-as-a-Judge een robuust onderscheidingsvermogen op zowel het beschrijvings- als het modelniveau. Op basis van deze inzichten brengen we CapArena-Auto uit, een nauwkeurige en efficiënte geautomatiseerde benchmark voor gedetailleerde beeldbeschrijving, die een correlatie van 94,3% met menselijke rangschikkingen bereikt tegen slechts $4 per test. Data en bronnen worden openbaar gemaakt op https://caparena.github.io.

English

Image captioning has been a longstanding challenge in vision-language research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate detailed and comprehensive image descriptions. However, benchmarking the quality of such captions remains unresolved. This paper addresses two key questions: (1) How well do current VLMs actually perform on image captioning, particularly compared to humans? We built CapArena, a platform with over 6000 pairwise caption battles and high-quality human preference votes. Our arena-style evaluation marks a milestone, showing that leading models like GPT-4o achieve or even surpass human performance, while most open-source models lag behind. (2) Can automated metrics reliably assess detailed caption quality? Using human annotations from CapArena, we evaluate traditional and recent captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while some metrics (e.g., METEOR) show decent caption-level agreement with humans, their systematic biases lead to inconsistencies in model ranking. In contrast, VLM-as-a-Judge demonstrates robust discernment at both the caption and model levels. Building on these insights, we release CapArena-Auto, an accurate and efficient automated benchmark for detailed captioning, achieving 94.3% correlation with human rankings at just $4 per test. Data and resources will be open-sourced at https://caparena.github.io.

CapArena: Benchmarken en analyseren van gedetailleerde beeldbeschrijvingen in het tijdperk van grote taalmodellen

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era

Samenvatting

Support