ChatPaper.aiChatPaper

CapArena: Benchmark e analisi della descrizione dettagliata di immagini nell'era dei modelli linguistici di grandi dimensioni

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era

March 16, 2025
Autori: Kanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen
cs.AI

Abstract

La generazione di didascalie per immagini è stata una sfida di lunga data nella ricerca visione-linguaggio. Con l'ascesa dei LLM, i moderni Modelli Visione-Linguaggio (VLM) producono descrizioni di immagini dettagliate e complete. Tuttavia, la valutazione della qualità di tali didascalie rimane un problema irrisolto. Questo articolo affronta due questioni chiave: (1) Quanto bene si comportano effettivamente gli attuali VLM nella generazione di didascalie, specialmente rispetto agli esseri umani? Abbiamo creato CapArena, una piattaforma con oltre 6000 battaglie a coppie di didascalie e voti di preferenza umana di alta qualità. La nostra valutazione in stile arena rappresenta una pietra miliare, dimostrando che i modelli leader come GPT-4o raggiungono o addirittura superano le prestazioni umane, mentre la maggior parte dei modelli open-source rimane indietro. (2) Le metriche automatizzate possono valutare in modo affidabile la qualità dettagliata delle didascalie? Utilizzando le annotazioni umane di CapArena, valutiamo le metriche tradizionali e recenti per la generazione di didascalie, nonché il VLM-as-a-Judge. La nostra analisi rivela che, sebbene alcune metriche (ad esempio, METEOR) mostrino un discreto accordo a livello di didascalia con gli esseri umani, i loro bias sistematici portano a incoerenze nella classifica dei modelli. Al contrario, il VLM-as-a-Judge dimostra una robusta capacità di discernimento sia a livello di didascalia che di modello. Basandoci su queste intuizioni, rilasciamo CapArena-Auto, un benchmark automatizzato accurato ed efficiente per la generazione di didascalie dettagliate, raggiungendo una correlazione del 94,3% con le classifiche umane a soli $4 per test. Dati e risorse saranno open-source su https://caparena.github.io.
English
Image captioning has been a longstanding challenge in vision-language research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate detailed and comprehensive image descriptions. However, benchmarking the quality of such captions remains unresolved. This paper addresses two key questions: (1) How well do current VLMs actually perform on image captioning, particularly compared to humans? We built CapArena, a platform with over 6000 pairwise caption battles and high-quality human preference votes. Our arena-style evaluation marks a milestone, showing that leading models like GPT-4o achieve or even surpass human performance, while most open-source models lag behind. (2) Can automated metrics reliably assess detailed caption quality? Using human annotations from CapArena, we evaluate traditional and recent captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while some metrics (e.g., METEOR) show decent caption-level agreement with humans, their systematic biases lead to inconsistencies in model ranking. In contrast, VLM-as-a-Judge demonstrates robust discernment at both the caption and model levels. Building on these insights, we release CapArena-Auto, an accurate and efficient automated benchmark for detailed captioning, achieving 94.3% correlation with human rankings at just $4 per test. Data and resources will be open-sourced at https://caparena.github.io.
PDF252March 19, 2025