Dipingere con le Parole: Migliorare la Descrizione Dettagliata delle Immagini con Benchmark e Apprendimento di Allineamento
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning
March 10, 2025
Autori: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI
Abstract
La generazione di didascalie per immagini è da tempo un compito fondamentale nella comprensione visiva, con i recenti progressi nei modelli visione-linguaggio (VLMs) che hanno notevolmente migliorato la capacità di generare descrizioni dettagliate delle immagini. Tuttavia, la valutazione delle didascalie dettagliate rimane poco esplorata a causa di metriche di valutazione obsolete e annotazioni grossolane. In questo articolo, introduciamo DeCapBench insieme a una nuova metrica, DCScore, specificamente progettata per i compiti di descrizione dettagliata. DCScore valuta le allucinazioni e la completezza fine-granularità scomponendo le risposte nelle più piccole unità autosufficienti, denominate unità di informazione primitive, e valutandole individualmente. La nostra valutazione mostra che DCScore si allinea più strettamente al giudizio umano rispetto ad altre metriche basate su regole o modelli. Contemporaneamente, DeCapBench mostra un'elevata correlazione con i risultati dell'arena VLM sui compiti descrittivi, superando i benchmark esistenti per i modelli visione-linguaggio. Inoltre, presentiamo un metodo automatico di raccolta di feedback fine-granularità, FeedQuill, per l'ottimizzazione delle preferenze basato sulla nostra metrica avanzata, dimostrando robuste capacità di generalizzazione su dati di preferenza generati automaticamente. Esperimenti estesi su più VLMs dimostrano che il nostro metodo non solo riduce significativamente le allucinazioni, ma migliora anche le prestazioni su vari benchmark, raggiungendo una performance superiore nella generazione di didascalie dettagliate e superando GPT-4o.
English
Image captioning has long been a pivotal task in visual understanding, with
recent advancements in vision-language models (VLMs) significantly enhancing
the ability to generate detailed image captions. However, the evaluation of
detailed image captioning remains underexplored due to outdated evaluation
metrics and coarse annotations. In this paper, we introduce DeCapBench along
with a novel metric, DCScore, specifically designed for detailed captioning
tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by
deconstructing responses into the smallest self-sufficient units, termed
primitive information units, and assessing them individually. Our evaluation
shows that DCScore aligns more closely with human judgment than other
rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high
correlation with VLM arena results on descriptive tasks, surpassing existing
benchmarks for vision-language models. Additionally, we present an automatic
fine-grained feedback collection method, FeedQuill, for preference optimization
based on our advanced metric, showing robust generalization capabilities across
auto-generated preference data. Extensive experiments on multiple VLMs
demonstrate that our method not only significantly reduces hallucinations but
also enhances performance across various benchmarks, achieving superior detail
captioning performance while surpassing GPT-4o.