ChatPaper.aiChatPaper

Peindre avec les mots : Améliorer la génération de descriptions d'images détaillées grâce à un benchmark et à l'apprentissage d'alignement

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

March 10, 2025
Auteurs: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI

Résumé

La génération de légendes d'images a longtemps été une tâche centrale dans la compréhension visuelle, avec les récents progrès des modèles vision-langage (VLMs) qui ont considérablement amélioré la capacité à produire des descriptions détaillées d'images. Cependant, l'évaluation des légendes détaillées reste peu explorée en raison de métriques d'évaluation obsolètes et d'annotations grossières. Dans cet article, nous introduisons DeCapBench ainsi qu'une nouvelle métrique, DCScore, spécialement conçue pour les tâches de légendes détaillées. DCScore évalue les hallucinations et la précision fine en décomposant les réponses en les plus petites unités autonomes, appelées unités d'information primitives, et en les évaluant individuellement. Notre évaluation montre que DCScore s'aligne plus étroitement avec le jugement humain que d'autres métriques basées sur des règles ou des modèles. Parallèlement, DeCapBench présente une forte corrélation avec les résultats de l'arène VLM sur les tâches descriptives, surpassant les benchmarks existants pour les modèles vision-langage. De plus, nous présentons une méthode automatique de collecte de feedback granulaire, FeedQuill, pour l'optimisation des préférences basée sur notre métrique avancée, démontrant des capacités de généralisation robustes sur des données de préférence générées automatiquement. Des expériences approfondies sur plusieurs VLMs montrent que notre méthode réduit non seulement significativement les hallucinations, mais améliore également les performances sur divers benchmarks, atteignant une performance supérieure en génération de légendes détaillées tout en surpassant GPT-4o.
English
Image captioning has long been a pivotal task in visual understanding, with recent advancements in vision-language models (VLMs) significantly enhancing the ability to generate detailed image captions. However, the evaluation of detailed image captioning remains underexplored due to outdated evaluation metrics and coarse annotations. In this paper, we introduce DeCapBench along with a novel metric, DCScore, specifically designed for detailed captioning tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by deconstructing responses into the smallest self-sufficient units, termed primitive information units, and assessing them individually. Our evaluation shows that DCScore aligns more closely with human judgment than other rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high correlation with VLM arena results on descriptive tasks, surpassing existing benchmarks for vision-language models. Additionally, we present an automatic fine-grained feedback collection method, FeedQuill, for preference optimization based on our advanced metric, showing robust generalization capabilities across auto-generated preference data. Extensive experiments on multiple VLMs demonstrate that our method not only significantly reduces hallucinations but also enhances performance across various benchmarks, achieving superior detail captioning performance while surpassing GPT-4o.

Summary

AI-Generated Summary

PDF42March 21, 2025