CaptionQA : Votre légende est-elle aussi utile que l'image elle-même ?
CaptionQA: Is Your Caption as Useful as the Image Itself?
November 26, 2025
papers.authors: Shijia Yang, Yunong Liu, Bohan Zhai, Ximeng Sun, Zicheng Liu, Emad Barsoum, Manling Li, Chenfeng Xu
cs.AI
papers.abstract
Les légendes d'images servent de substituts efficaces au contenu visuel dans les systèmes multimodaux tels que la recherche, la recommandation et les pipelines d'inférence agentique multi-étapes. Pourtant, les pratiques d'évaluation actuelles négligent une question fondamentale : Les légendes peuvent-elles remplacer les images dans les tâches en aval réelles ? Nous proposons un benchmark utilitaire, CaptionQA, pour évaluer les légendes générées par les modèles, où la qualité d'une légende est mesurée par sa capacité à soutenir les tâches en aval. CaptionQA est un benchmark extensible et dépendant du domaine couvrant 4 domaines – Naturel, Document, Commerce électronique et IA incarnée – chacun avec des taxonomies granulaires (25 catégories principales et 69 sous-catégories) qui identifient les informations utiles pour les tâches spécifiques à un domaine. CaptionQA construit 33 027 questions à choix multiples annotées de manière dense (50,3 par image en moyenne) qui nécessitent explicitement des informations visuelles pour y répondre, offrant ainsi une sonde complète de l'utilité des légendes. Dans notre protocole d'évaluation, un LLM répond à ces questions en utilisant uniquement les légendes, mesurant directement si les légendes préservent l'utilité au niveau de l'image et sont utilisables par un LLM en aval. L'évaluation des MLLM de pointe révèle des écarts substantiels entre l'image et l'utilité de sa légende. Notamment, des modèles quasi identiques sur les benchmarks traditionnels de question-réponse sur images voient leur utilité en tant que légende chuter jusqu'à 32 %. Nous publions CaptionQA ainsi qu'un pipeline open-source pour son extension à de nouveaux domaines. Le code est disponible à l'adresse https://github.com/bronyayang/CaptionQA.
English
Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.