ChatPaper.aiChatPaper

CapArena: Avaliação e Análise de Descrição Detalhada de Imagens na Era dos LLMs

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era

March 16, 2025
Autores: Kanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen
cs.AI

Resumo

A descrição de imagens tem sido um desafio de longa data na pesquisa de visão e linguagem. Com o surgimento dos LLMs, os modernos Modelos de Visão-Linguagem (VLMs) geram descrições de imagens detalhadas e abrangentes. No entanto, a avaliação da qualidade dessas legendas permanece sem solução. Este artigo aborda duas questões principais: (1) Quão bem os VLMs atuais realmente se saem na descrição de imagens, especialmente em comparação com humanos? Construímos o CapArena, uma plataforma com mais de 6000 batalhas de legendas em pares e votos de preferência humana de alta qualidade. Nossa avaliação no estilo arena marca um marco, mostrando que modelos líderes como o GPT-4o alcançam ou até superam o desempenho humano, enquanto a maioria dos modelos de código aberto fica para trás. (2) As métricas automatizadas podem avaliar de forma confiável a qualidade detalhada das legendas? Usando anotações humanas do CapArena, avaliamos métricas tradicionais e recentes de legendagem, bem como o VLM-as-a-Judge. Nossa análise revela que, embora algumas métricas (por exemplo, METEOR) mostrem uma concordância decente em nível de legenda com humanos, seus vieses sistemáticos levam a inconsistências na classificação dos modelos. Em contraste, o VLM-as-a-Judge demonstra discernimento robusto tanto no nível da legenda quanto no nível do modelo. Com base nessas percepções, lançamos o CapArena-Auto, um benchmark automatizado preciso e eficiente para legendagem detalhada, alcançando 94,3% de correlação com as classificações humanas a apenas $4 por teste. Dados e recursos serão disponibilizados como código aberto em https://caparena.github.io.
English
Image captioning has been a longstanding challenge in vision-language research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate detailed and comprehensive image descriptions. However, benchmarking the quality of such captions remains unresolved. This paper addresses two key questions: (1) How well do current VLMs actually perform on image captioning, particularly compared to humans? We built CapArena, a platform with over 6000 pairwise caption battles and high-quality human preference votes. Our arena-style evaluation marks a milestone, showing that leading models like GPT-4o achieve or even surpass human performance, while most open-source models lag behind. (2) Can automated metrics reliably assess detailed caption quality? Using human annotations from CapArena, we evaluate traditional and recent captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while some metrics (e.g., METEOR) show decent caption-level agreement with humans, their systematic biases lead to inconsistencies in model ranking. In contrast, VLM-as-a-Judge demonstrates robust discernment at both the caption and model levels. Building on these insights, we release CapArena-Auto, an accurate and efficient automated benchmark for detailed captioning, achieving 94.3% correlation with human rankings at just $4 per test. Data and resources will be open-sourced at https://caparena.github.io.

Summary

AI-Generated Summary

PDF252March 19, 2025