ChatPaper.aiChatPaper

Pintando com Palavras: Elevando a Geração de Legendas Detalhadas de Imagens com Benchmark e Aprendizado de Alinhamento

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

March 10, 2025
Autores: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI

Resumo

A geração de legendas para imagens tem sido uma tarefa fundamental no entendimento visual, com os recentes avanços em modelos de visão e linguagem (VLMs) aprimorando significativamente a capacidade de gerar legendas detalhadas para imagens. No entanto, a avaliação de legendas detalhadas ainda é pouco explorada devido a métricas de avaliação desatualizadas e anotações pouco refinadas. Neste artigo, apresentamos o DeCapBench juntamente com uma nova métrica, o DCScore, especificamente projetada para tarefas de legendagem detalhada. O DCScore avalia alucinações e a abrangência em nível granular ao desconstruir as respostas nas menores unidades autossuficientes, denominadas unidades primitivas de informação, e avaliá-las individualmente. Nossa avaliação mostra que o DCScore está mais alinhado com o julgamento humano do que outras métricas baseadas em regras ou modelos. Paralelamente, o DeCapBench exibe uma alta correlação com os resultados da arena de VLMs em tarefas descritivas, superando os benchmarks existentes para modelos de visão e linguagem. Além disso, apresentamos um método automático de coleta de feedback granular, o FeedQuill, para otimização de preferências com base em nossa métrica avançada, demonstrando capacidades robustas de generalização em dados de preferência gerados automaticamente. Experimentos extensivos em múltiplos VLMs mostram que nosso método não apenas reduz significativamente as alucinações, mas também melhora o desempenho em vários benchmarks, alcançando uma performance superior na geração de legendas detalhadas e superando o GPT-4o.
English
Image captioning has long been a pivotal task in visual understanding, with recent advancements in vision-language models (VLMs) significantly enhancing the ability to generate detailed image captions. However, the evaluation of detailed image captioning remains underexplored due to outdated evaluation metrics and coarse annotations. In this paper, we introduce DeCapBench along with a novel metric, DCScore, specifically designed for detailed captioning tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by deconstructing responses into the smallest self-sufficient units, termed primitive information units, and assessing them individually. Our evaluation shows that DCScore aligns more closely with human judgment than other rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high correlation with VLM arena results on descriptive tasks, surpassing existing benchmarks for vision-language models. Additionally, we present an automatic fine-grained feedback collection method, FeedQuill, for preference optimization based on our advanced metric, showing robust generalization capabilities across auto-generated preference data. Extensive experiments on multiple VLMs demonstrate that our method not only significantly reduces hallucinations but also enhances performance across various benchmarks, achieving superior detail captioning performance while surpassing GPT-4o.

Summary

AI-Generated Summary

PDF42March 21, 2025