CapArena: Оценка и анализ детализированного описания изображений в эпоху крупных языковых моделей
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
March 16, 2025
Авторы: Kanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen
cs.AI
Аннотация
Создание подписей к изображениям долгое время оставалось сложной задачей в исследованиях на стыке зрения и языка. С появлением крупных языковых моделей (LLM) современные модели, объединяющие зрение и язык (Vision-Language Models, VLM), генерируют детальные и всесторонние описания изображений. Однако оценка качества таких подписей до сих пор остаётся нерешённой проблемой. В данной статье рассматриваются два ключевых вопроса: (1) Насколько хорошо современные VLM справляются с созданием подписей к изображениям, особенно в сравнении с человеком? Мы разработали CapArena — платформу с более чем 6000 парных сравнений подписей и высококачественными голосами, отражающими предпочтения людей. Наше аренное оценивание стало важным этапом, показав, что ведущие модели, такие как GPT-4o, достигают или даже превосходят человеческий уровень, в то время как большинство открытых моделей отстают. (2) Могут ли автоматизированные метрики надёжно оценивать детальность подписей? Используя аннотации людей из CapArena, мы оцениваем традиционные и современные метрики для подписей, а также подход VLM-as-a-Judge. Наш анализ показывает, что хотя некоторые метрики (например, METEOR) демонстрируют приемлемое согласование с человеческими оценками на уровне отдельных подписей, их систематические смещения приводят к несоответствиям в ранжировании моделей. В отличие от них, подход VLM-as-a-Judge демонстрирует устойчивую способность к различению как на уровне подписей, так и на уровне моделей. На основе этих выводов мы выпускаем CapArena-Auto — точный и эффективный автоматизированный бенчмарк для детального оценивания подписей, достигающий 94,3% корреляции с человеческими ранжированиями при стоимости всего $4 за тест. Данные и ресурсы будут опубликованы в открытом доступе по адресу https://caparena.github.io.
English
Image captioning has been a longstanding challenge in vision-language
research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate
detailed and comprehensive image descriptions. However, benchmarking the
quality of such captions remains unresolved. This paper addresses two key
questions: (1) How well do current VLMs actually perform on image captioning,
particularly compared to humans? We built CapArena, a platform with over 6000
pairwise caption battles and high-quality human preference votes. Our
arena-style evaluation marks a milestone, showing that leading models like
GPT-4o achieve or even surpass human performance, while most open-source models
lag behind. (2) Can automated metrics reliably assess detailed caption quality?
Using human annotations from CapArena, we evaluate traditional and recent
captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while
some metrics (e.g., METEOR) show decent caption-level agreement with humans,
their systematic biases lead to inconsistencies in model ranking. In contrast,
VLM-as-a-Judge demonstrates robust discernment at both the caption and model
levels. Building on these insights, we release CapArena-Auto, an accurate and
efficient automated benchmark for detailed captioning, achieving 94.3%
correlation with human rankings at just $4 per test. Data and resources will be
open-sourced at https://caparena.github.io.Summary
AI-Generated Summary