CaptionQA: La tua didascalia è utile quanto l'immagine stessa?
CaptionQA: Is Your Caption as Useful as the Image Itself?
November 26, 2025
Autori: Shijia Yang, Yunong Liu, Bohan Zhai, Ximeng Sun, Zicheng Liu, Emad Barsoum, Manling Li, Chenfeng Xu
cs.AI
Abstract
Le didascalie delle immagini fungono da efficienti sostituti del contenuto visivo in sistemi multimodali come recupero informazioni, raccomandazione e pipeline di inferenza agentica multi-step. Tuttavia, le attuali pratiche di valutazione tralasciano una domanda fondamentale: le didascalie possono sostituire le immagini in compiti downstream reali? Proponiamo un benchmark basato sull'utilità, CaptionQA, per valutare le didascalie generate dai modelli, dove la qualità della didascalia è misurata dalla sua capacità di supportare i compiti downstream. CaptionQA è un benchmark estensibile e dipendente dal dominio che copre 4 ambiti—Naturale, Documenti, E-commerce e Intelligenza Artificiale Embodied—ciascuno con tassonomie granulari (25 categorie di primo livello e 69 sottocategorie) che identificano informazioni utili per compiti specifici del dominio. CaptionQA costruisce 33.027 domande a scelta multipla con annotazioni dense (50,3 per immagine in media) che richiedono esplicitamente informazioni visive per essere risposte, fornendo un'analisi completa dell'utilità delle didascalie. Nel nostro protocollo di valutazione, un LLM risponde a queste domande utilizzando solo le didascalie, misurando direttamente se le didascalie preservano l'utilità a livello di immagine e sono utilizzabili da un LLM downstream. La valutazione di MLLM all'avanguardia rivela divari sostanziali tra l'immagine e l'utilità della sua didascalia. Significativamente, modelli quasi identici sui tradizionali benchmark di image-QA registrano un calo fino al 32% nell'utilità della didascalia. Rilasciamo CaptionQA insieme a una pipeline open-source per l'estensione a nuovi domini. Il codice è disponibile all'indirizzo https://github.com/bronyayang/CaptionQA.
English
Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.