ChatPaper.aiChatPaper

CapArena: LLM 시대의 세부 이미지 캡션 생성 벤치마킹 및 분석

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era

March 16, 2025
저자: Kanzhi Cheng, Wenpo Song, Jiaxin Fan, Zheng Ma, Qiushi Sun, Fangzhi Xu, Chenyang Yan, Nuo Chen, Jianbing Zhang, Jiajun Chen
cs.AI

초록

이미지 캡셔닝은 시각-언어 연구 분야에서 오랫동안 도전적인 과제로 남아있었습니다. 대형 언어 모델(LLM)의 등장과 함께, 현대의 시각-언어 모델(VLM)은 상세하고 포괄적인 이미지 설명을 생성할 수 있게 되었습니다. 그러나 이러한 캡션의 품질을 평가하는 벤치마킹은 여전히 해결되지 않은 문제로 남아 있습니다. 본 논문은 두 가지 핵심 질문을 다룹니다: (1) 현재의 VLM이 실제로 이미지 캡셔닝에서 얼마나 잘 수행되며, 특히 인간과 비교했을 때 어떤 성능을 보이는가? 우리는 6000개 이상의 캡션 대결과 고품질의 인간 선호도 투표를 포함한 CapArena 플랫폼을 구축했습니다. 아레나 스타일의 평가를 통해 GPT-4o와 같은 선두 모델이 인간 수준의 성능을 달성하거나 이를 뛰어넘는 반면, 대부분의 오픈소스 모델은 뒤처지는 것을 확인했습니다. (2) 자동화된 메트릭이 상세한 캡션 품질을 신뢰할 수 있게 평가할 수 있는가? CapArena의 인간 주석을 활용하여 전통적 및 최신 캡셔닝 메트릭과 VLM-as-a-Judge를 평가했습니다. 우리의 분석은 일부 메트릭(예: METEOR)이 인간과의 캡션 수준 일치를 보여주지만, 이들의 체계적 편향으로 인해 모델 순위에서 불일치가 발생함을 보여줍니다. 반면, VLM-as-a-Judge는 캡션 및 모델 수준에서 모두 강력한 판별력을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 상세 캡셔닝을 위한 정확하고 효율적인 자동화 벤치마크인 CapArena-Auto를 공개하며, 테스트당 단 $4의 비용으로 인간 순위와 94.3%의 상관관계를 달성했습니다. 데이터와 리소스는 https://caparena.github.io에서 오픈소스로 제공될 예정입니다.
English
Image captioning has been a longstanding challenge in vision-language research. With the rise of LLMs, modern Vision-Language Models (VLMs) generate detailed and comprehensive image descriptions. However, benchmarking the quality of such captions remains unresolved. This paper addresses two key questions: (1) How well do current VLMs actually perform on image captioning, particularly compared to humans? We built CapArena, a platform with over 6000 pairwise caption battles and high-quality human preference votes. Our arena-style evaluation marks a milestone, showing that leading models like GPT-4o achieve or even surpass human performance, while most open-source models lag behind. (2) Can automated metrics reliably assess detailed caption quality? Using human annotations from CapArena, we evaluate traditional and recent captioning metrics, as well as VLM-as-a-Judge. Our analysis reveals that while some metrics (e.g., METEOR) show decent caption-level agreement with humans, their systematic biases lead to inconsistencies in model ranking. In contrast, VLM-as-a-Judge demonstrates robust discernment at both the caption and model levels. Building on these insights, we release CapArena-Auto, an accurate and efficient automated benchmark for detailed captioning, achieving 94.3% correlation with human rankings at just $4 per test. Data and resources will be open-sourced at https://caparena.github.io.

Summary

AI-Generated Summary

PDF252March 19, 2025