CaptionQA: Sua legenda é tão útil quanto a própria imagem?

Resumo

As legendas de imagens servem como substitutos eficientes do conteúdo visual em sistemas multimodais como recuperação, recomendação e pipelines de inferência agentes multi-etapas. No entanto, as práticas atuais de avaliação perdem uma questão fundamental: As legendas podem substituir as imagens em tarefas reais a jusante? Propomos um benchmark baseado em utilidade, o CaptionQA, para avaliar legendas geradas por modelos, onde a qualidade da legenda é medida pela sua capacidade de suportar tarefas a jusante. O CaptionQA é um benchmark extensível e dependente do domínio, abrangendo 4 domínios—Natural, Documento, E-commerce e IA Incorporada—cada um com taxonomias granulares (25 categorias de alto nível e 69 subcategorias) que identificam informações úteis para tarefas específicas do domínio. O CaptionQA constrói 33.027 questões de múltipla escolha densamente anotadas (50,3 por imagem em média) que exigem explicitamente informações visuais para serem respondidas, fornecendo uma sonda abrangente da utilidade da legenda. Em nosso protocolo de avaliação, um LLM responde a essas questões usando apenas legendas, medindo diretamente se as legendas preservam a utilidade a nível de imagem e são utilizáveis por um LLM a jusante. A avaliação de MLLMs state-of-the-art revela lacunas substanciais entre a imagem e a utilidade da sua legenda. Notavelmente, modelos quase idênticos em benchmarks tradicionais de imagem-QA caem até 32% na utilidade da legenda. Lançamos o CaptionQA juntamente com um pipeline de código aberto para extensão a novos domínios. O código está disponível em https://github.com/bronyayang/CaptionQA.

English

Image captions serve as efficient surrogates for visual content in multimodal systems such as retrieval, recommendation, and multi-step agentic inference pipelines. Yet current evaluation practices miss a fundamental question: Can captions stand-in for images in real downstream tasks? We propose a utility-based benchmark, CaptionQA, to evaluate model-generated captions, where caption quality is measured by how well it supports downstream tasks. CaptionQA is an extensible domain-dependent benchmark covering 4 domains--Natural, Document, E-commerce, and Embodied AI--each with fine-grained taxonomies (25 top-level and 69 subcategories) that identify useful information for domain-specific tasks. CaptionQA builds 33,027 densely annotated multiple-choice questions (50.3 per image on average) that explicitly require visual information to answer, providing a comprehensive probe of caption utility. In our evaluation protocol, an LLM answers these questions using captions alone, directly measuring whether captions preserve image-level utility and are utilizable by a downstream LLM. Evaluating state-of-the-art MLLMs reveals substantial gaps between the image and its caption utility. Notably, models nearly identical on traditional image-QA benchmarks lower by up to 32% in caption utility. We release CaptionQA along with an open-source pipeline for extension to new domains. The code is available at https://github.com/bronyayang/CaptionQA.

CaptionQA: Sua legenda é tão útil quanto a própria imagem?

CaptionQA: Is Your Caption as Useful as the Image Itself?

Resumo

Support