CapArena: Evaluación y Análisis de la Generación Detallada de Descripciones de Imágenes en la Era de los Modelos de Lenguaje de Gran Escala
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
March 16, 2025
Autores: Kanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen
cs.AI
Resumen
La generación de descripciones de imágenes ha sido un desafío persistente en la investigación de visión y lenguaje. Con el auge de los LLMs, los modelos modernos de visión y lenguaje (VLMs) producen descripciones de imágenes detalladas y completas. Sin embargo, la evaluación de la calidad de estas descripciones sigue sin resolverse. Este artículo aborda dos preguntas clave: (1) ¿Qué tan bien se desempeñan los VLMs actuales en la generación de descripciones de imágenes, especialmente en comparación con los humanos? Creamos CapArena, una plataforma con más de 6000 comparaciones de descripciones y votos de preferencia humana de alta calidad. Nuestra evaluación estilo arena marca un hito, mostrando que modelos líderes como GPT-4o alcanzan o incluso superan el desempeño humano, mientras que la mayoría de los modelos de código abierto se quedan atrás. (2) ¿Pueden las métricas automatizadas evaluar de manera confiable la calidad de las descripciones detalladas? Utilizando anotaciones humanas de CapArena, evaluamos métricas tradicionales y recientes de generación de descripciones, así como VLM-como-Juez. Nuestro análisis revela que, aunque algunas métricas (por ejemplo, METEOR) muestran un acuerdo decente a nivel de descripción con los humanos, sus sesgos sistemáticos conducen a inconsistencias en la clasificación de modelos. En contraste, VLM-como-Juez demuestra una discriminación robusta tanto a nivel de descripción como de modelo. Basándonos en estas ideas, lanzamos CapArena-Auto, un punto de referencia automatizado preciso y eficiente para la generación de descripciones detalladas, logrando una correlación del 94.3% con las clasificaciones humanas a solo $4 por prueba. Los datos y recursos se publicarán en código abierto en https://caparena.github.io.
English
Image captioning has been a longstanding challenge in vision-language
research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate
detailed and comprehensive image descriptions. However, benchmarking the
quality of such captions remains unresolved. This paper addresses two key
questions: (1) How well do current VLMs actually perform on image captioning,
particularly compared to humans? We built CapArena, a platform with over 6000
pairwise caption battles and high-quality human preference votes. Our
arena-style evaluation marks a milestone, showing that leading models like
GPT-4o achieve or even surpass human performance, while most open-source models
lag behind. (2) Can automated metrics reliably assess detailed caption quality?
Using human annotations from CapArena, we evaluate traditional and recent
captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while
some metrics (e.g., METEOR) show decent caption-level agreement with humans,
their systematic biases lead to inconsistencies in model ranking. In contrast,
VLM-as-a-Judge demonstrates robust discernment at both the caption and model
levels. Building on these insights, we release CapArena-Auto, an accurate and
efficient automated benchmark for detailed captioning, achieving 94.3%
correlation with human rankings at just $4 per test. Data and resources will be
open-sourced at https://caparena.github.io.Summary
AI-Generated Summary