ChatPaper.aiChatPaper

Pintando con Palabras: Elevando la Generación de Descripciones Detalladas de Imágenes con Aprendizaje de Referencia y Alineación

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

March 10, 2025
Autores: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI

Resumen

La generación de descripciones de imágenes ha sido durante mucho tiempo una tarea fundamental en la comprensión visual, y los avances recientes en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han mejorado significativamente la capacidad de generar descripciones detalladas de imágenes. Sin embargo, la evaluación de estas descripciones detalladas sigue siendo poco explorada debido a métricas de evaluación obsoletas y anotaciones poco precisas. En este artículo, presentamos DeCapBench junto con una nueva métrica, DCScore, diseñada específicamente para tareas de descripción detallada. DCScore evalúa las alucinaciones y la exhaustividad a nivel de detalle al descomponer las respuestas en las unidades más pequeñas y autosuficientes, denominadas unidades primitivas de información, y evaluarlas individualmente. Nuestra evaluación muestra que DCScore se alinea más estrechamente con el juicio humano que otras métricas basadas en reglas o modelos. Al mismo tiempo, DeCapBench exhibe una alta correlación con los resultados de la arena VLM en tareas descriptivas, superando los puntos de referencia existentes para modelos de visión y lenguaje. Además, presentamos un método automático de recopilación de retroalimentación detallada, FeedQuill, para la optimización de preferencias basado en nuestra métrica avanzada, mostrando capacidades robustas de generalización en datos de preferencia generados automáticamente. Experimentos extensos en múltiples VLMs demuestran que nuestro método no solo reduce significativamente las alucinaciones, sino que también mejora el rendimiento en varios puntos de referencia, logrando un desempeño superior en la generación de descripciones detalladas y superando a GPT-4o.
English
Image captioning has long been a pivotal task in visual understanding, with recent advancements in vision-language models (VLMs) significantly enhancing the ability to generate detailed image captions. However, the evaluation of detailed image captioning remains underexplored due to outdated evaluation metrics and coarse annotations. In this paper, we introduce DeCapBench along with a novel metric, DCScore, specifically designed for detailed captioning tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by deconstructing responses into the smallest self-sufficient units, termed primitive information units, and assessing them individually. Our evaluation shows that DCScore aligns more closely with human judgment than other rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high correlation with VLM arena results on descriptive tasks, surpassing existing benchmarks for vision-language models. Additionally, we present an automatic fine-grained feedback collection method, FeedQuill, for preference optimization based on our advanced metric, showing robust generalization capabilities across auto-generated preference data. Extensive experiments on multiple VLMs demonstrate that our method not only significantly reduces hallucinations but also enhances performance across various benchmarks, achieving superior detail captioning performance while surpassing GPT-4o.

Summary

AI-Generated Summary

PDF42March 21, 2025