ChatPaper.aiChatPaper

Dipingere con le Parole: Migliorare la Descrizione Dettagliata delle Immagini con Benchmark e Apprendimento di Allineamento

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

March 10, 2025
Autori: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI

Abstract

La generazione di didascalie per immagini è da tempo un compito fondamentale nella comprensione visiva, con i recenti progressi nei modelli visione-linguaggio (VLMs) che hanno notevolmente migliorato la capacità di generare descrizioni dettagliate delle immagini. Tuttavia, la valutazione delle didascalie dettagliate rimane poco esplorata a causa di metriche di valutazione obsolete e annotazioni grossolane. In questo articolo, introduciamo DeCapBench insieme a una nuova metrica, DCScore, specificamente progettata per i compiti di descrizione dettagliata. DCScore valuta le allucinazioni e la completezza fine-granularità scomponendo le risposte nelle più piccole unità autosufficienti, denominate unità di informazione primitive, e valutandole individualmente. La nostra valutazione mostra che DCScore si allinea più strettamente al giudizio umano rispetto ad altre metriche basate su regole o modelli. Contemporaneamente, DeCapBench mostra un'elevata correlazione con i risultati dell'arena VLM sui compiti descrittivi, superando i benchmark esistenti per i modelli visione-linguaggio. Inoltre, presentiamo un metodo automatico di raccolta di feedback fine-granularità, FeedQuill, per l'ottimizzazione delle preferenze basato sulla nostra metrica avanzata, dimostrando robuste capacità di generalizzazione su dati di preferenza generati automaticamente. Esperimenti estesi su più VLMs dimostrano che il nostro metodo non solo riduce significativamente le allucinazioni, ma migliora anche le prestazioni su vari benchmark, raggiungendo una performance superiore nella generazione di didascalie dettagliate e superando GPT-4o.
English
Image captioning has long been a pivotal task in visual understanding, with recent advancements in vision-language models (VLMs) significantly enhancing the ability to generate detailed image captions. However, the evaluation of detailed image captioning remains underexplored due to outdated evaluation metrics and coarse annotations. In this paper, we introduce DeCapBench along with a novel metric, DCScore, specifically designed for detailed captioning tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by deconstructing responses into the smallest self-sufficient units, termed primitive information units, and assessing them individually. Our evaluation shows that DCScore aligns more closely with human judgment than other rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high correlation with VLM arena results on descriptive tasks, surpassing existing benchmarks for vision-language models. Additionally, we present an automatic fine-grained feedback collection method, FeedQuill, for preference optimization based on our advanced metric, showing robust generalization capabilities across auto-generated preference data. Extensive experiments on multiple VLMs demonstrate that our method not only significantly reduces hallucinations but also enhances performance across various benchmarks, achieving superior detail captioning performance while surpassing GPT-4o.
PDF42March 21, 2025