CaptionQA: 이미지 자체만큼 유용한 캡션이지요?
CaptionQA: Is Your Caption as Useful as the Image Itself?
November 26, 2025
저자: Shijia Yang, Yunong Liu, Bohan Zhai, Ximeng Sun, Zicheng Liu, Emad Barsoum, Manling Li, Chenfeng Xu
cs.AI
초록
이미지 캡션은 검색, 추천, 다단계 에이전트 추론 파이프라인과 같은 멀티모달 시스템에서 시각적 콘텐츠의 효율적인 대리자 역할을 합니다. 그러나 현재의 평가 관행은 근본적인 질문을 간과하고 있습니다: 실제 다운스트림 작업에서 캡션이 이미지를 대체할 수 있는가? 우리는 모델 생성 캡션을 평가하기 위해 유틸리티 기반 벤치마크인 CaptionQA를 제안하며, 여기서 캡션 품질은 다운스트림 작업을 얼마나 잘 지원하는지로 측정됩니다. CaptionQA는 자연, 문서, 전자상거래, 구현형 AI의 4개 도메인을 포괄하는 확장 가능한 도메인 의존적 벤치마크로, 각 도메인은 도메인 특화 작업에 유용한 정보를 식별하는 세분화된 분류 체계(25개 상위 범주 및 69개 하위 범주)를 갖추고 있습니다. CaptionQA는 시각적 정보를 명시적으로 필요로 하는 33,027개의 집중 주석 다지선다형 질문(이미지당 평균 50.3개)을 구축하여 캡션 유틸리티에 대한 포괄적인 탐구를 제공합니다. 우리의 평가 프로토콜에서는 LLM이 캡션만을 사용하여 이러한 질문에 답함으로써 캡션이 이미지 수준의 유틸리티를 보존하고 다운스트림 LLM이 활용할 수 있는지를 직접 측정합니다. 최첨단 MLLM을 평가한 결과, 이미지와 캡션 유틸리티 간에 상당한 격차가 있음이 드러났습니다. 특히 기존 이미지-QA 벤치마크에서 거의 동일한 성능을 보인 모델들이 캡션 유틸리티에서는 최대 32%까지 하락했습니다. 우리는 CaptionQA와 새로운 도메인으로의 확장을 위한 오픈소스 파이프라인을 공개합니다. 코드는 https://github.com/bronyayang/CaptionQA에서 확인할 수 있습니다.
English
Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.