CaptionQA: ¿Es tu descripción tan útil como la imagen en sí?
CaptionQA: Is Your Caption as Useful as the Image Itself?
November 26, 2025
Autores: Shijia Yang, Yunong Liu, Bohan Zhai, Ximeng Sun, Zicheng Liu, Emad Barsoum, Manling Li, Chenfeng Xu
cs.AI
Resumen
Los pies de foto sirven como sustitutos eficientes del contenido visual en sistemas multimodales como la recuperación de información, la recomendación y las canalizaciones de inferencia agentiva de múltiples pasos. Sin embargo, las prácticas de evaluación actuales pasan por alto una pregunta fundamental: ¿Pueden los pies de foto sustituir a las imágenes en tareas descendentes reales? Proponemos un benchmark basado en la utilidad, CaptionQA, para evaluar los pies de foto generados por modelos, donde la calidad del pie de foto se mide por cómo de bien respalda las tareas descendentes. CaptionQA es un benchmark extensible y dependiente del dominio que cubre 4 dominios—Natural, Documentos, Comercio Electrónico e IA Encarnada—cada uno con taxonomías de grano fino (25 categorías principales y 69 subcategorías) que identifican información útil para tareas específicas del dominio. CaptionQA construye 33.027 preguntas de opción múltiple anotadas densamente (50,3 por imagen de media) que requieren explícitamente información visual para responderse, proporcionando una sonda exhaustiva de la utilidad del pie de foto. En nuestro protocolo de evaluación, un LLM responde estas preguntas utilizando únicamente pies de foto, midiendo directamente si los pies de foto preservan la utilidad a nivel de imagen y son utilizables por un LLM descendente. La evaluación de MLLMs de vanguardia revela brechas sustanciales entre la utilidad de la imagen y la de su pie de foto. Notablemente, modelos casi idénticos en benchmarks tradicionales de pregunta-respuesta sobre imágenes disminuyen hasta un 32% en utilidad del pie de foto. Publicamos CaptionQA junto con una canalización de código abierto para su extensión a nuevos dominios. El código está disponible en https://github.com/bronyayang/CaptionQA.
English
Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.