CapArena : Évaluation et analyse détaillée de la génération de descriptions d'images à l'ère des grands modèles de langage
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
March 16, 2025
Auteurs: Kanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen
cs.AI
Résumé
La génération de légendes d'images constitue un défi de longue date dans la recherche en vision et langage. Avec l'essor des LLMs, les modèles modernes de vision-langage (VLMs) produisent des descriptions d'images détaillées et complètes. Cependant, l'évaluation de la qualité de ces légendes reste un problème non résolu. Cet article aborde deux questions clés : (1) Dans quelle mesure les VLMs actuels performent-ils réellement en génération de légendes, notamment par rapport aux humains ? Nous avons développé CapArena, une plateforme comprenant plus de 6000 combats de légendes par paires et des votes de préférence humaine de haute qualité. Notre évaluation de type arène marque une étape importante, montrant que les modèles leaders comme GPT-4o atteignent ou dépassent même les performances humaines, tandis que la plupart des modèles open-source sont à la traîne. (2) Les métriques automatisées peuvent-elles évaluer de manière fiable la qualité détaillée des légendes ? En utilisant les annotations humaines de CapArena, nous évaluons les métriques traditionnelles et récentes de génération de légendes, ainsi que le VLM-comme-juge. Notre analyse révèle que bien que certaines métriques (par exemple, METEOR) montrent un accord décent au niveau des légendes avec les humains, leurs biais systématiques entraînent des incohérences dans le classement des modèles. En revanche, le VLM-comme-juge démontre une capacité de discernement robuste à la fois au niveau des légendes et des modèles. Sur la base de ces insights, nous publions CapArena-Auto, un benchmark automatisé précis et efficace pour la génération de légendes détaillées, atteignant une corrélation de 94,3 % avec les classements humains pour seulement 4 $ par test. Les données et ressources seront open-source sur https://caparena.github.io.
English
Image captioning has been a longstanding challenge in vision-language
research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate
detailed and comprehensive image descriptions. However, benchmarking the
quality of such captions remains unresolved. This paper addresses two key
questions: (1) How well do current VLMs actually perform on image captioning,
particularly compared to humans? We built CapArena, a platform with over 6000
pairwise caption battles and high-quality human preference votes. Our
arena-style evaluation marks a milestone, showing that leading models like
GPT-4o achieve or even surpass human performance, while most open-source models
lag behind. (2) Can automated metrics reliably assess detailed caption quality?
Using human annotations from CapArena, we evaluate traditional and recent
captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while
some metrics (e.g., METEOR) show decent caption-level agreement with humans,
their systematic biases lead to inconsistencies in model ranking. In contrast,
VLM-as-a-Judge demonstrates robust discernment at both the caption and model
levels. Building on these insights, we release CapArena-Auto, an accurate and
efficient automated benchmark for detailed captioning, achieving 94.3%
correlation with human rankings at just $4 per test. Data and resources will be
open-sourced at https://caparena.github.io.Summary
AI-Generated Summary