Schilderen met Woorden: Verbetering van Gedetailleerde Beeldbeschrijvingen met Benchmark en Afstemmingsleren
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning
March 10, 2025
Auteurs: Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan
cs.AI
Samenvatting
Beeldbeschrijving is al lang een cruciale taak in visueel begrip, waarbij recente vooruitgang in visueel-taalmodelen (VLM's) het vermogen om gedetailleerde beeldbeschrijvingen te genereren aanzienlijk heeft verbeterd. De evaluatie van gedetailleerde beeldbeschrijvingen blijft echter onderbelicht vanwege verouderde evaluatiemetrics en grove annotaties. In dit artikel introduceren we DeCapBench samen met een nieuwe metric, DCScore, die specifiek is ontworpen voor gedetailleerde beschrijvingstaken. DCScore evalueert hallucinaties en fijnmazige volledigheid door reacties te ontleden in de kleinste zelfvoorzienende eenheden, genaamd primitieve informatie-eenheden, en deze individueel te beoordelen. Onze evaluatie toont aan dat DCScore beter aansluit bij menselijk oordeel dan andere op regels gebaseerde of modelgebaseerde metrics. Tegelijkertijd vertoont DeCapBench een hoge correlatie met VLM-arenaresultaten op beschrijvende taken, waarbij het bestaande benchmarks voor visueel-taalmodelen overtreft. Daarnaast presenteren we een automatische methode voor het verzamelen van fijnmazige feedback, FeedQuill, voor voorkeursoptimalisatie op basis van onze geavanceerde metric, die robuuste generalisatiecapaciteiten laat zien over automatisch gegenereerde voorkeursdata. Uitgebreide experimenten op meerdere VLM's tonen aan dat onze methode niet alleen hallucinaties aanzienlijk vermindert, maar ook de prestaties op verschillende benchmarks verbetert, waarbij superieure prestaties in gedetailleerde beschrijvingen worden bereikt en GPT-4o wordt overtroffen.
English
Image captioning has long been a pivotal task in visual understanding, with
recent advancements in vision-language models (VLMs) significantly enhancing
the ability to generate detailed image captions. However, the evaluation of
detailed image captioning remains underexplored due to outdated evaluation
metrics and coarse annotations. In this paper, we introduce DeCapBench along
with a novel metric, DCScore, specifically designed for detailed captioning
tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by
deconstructing responses into the smallest self-sufficient units, termed
primitive information units, and assessing them individually. Our evaluation
shows that DCScore aligns more closely with human judgment than other
rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high
correlation with VLM arena results on descriptive tasks, surpassing existing
benchmarks for vision-language models. Additionally, we present an automatic
fine-grained feedback collection method, FeedQuill, for preference optimization
based on our advanced metric, showing robust generalization capabilities across
auto-generated preference data. Extensive experiments on multiple VLMs
demonstrate that our method not only significantly reduces hallucinations but
also enhances performance across various benchmarks, achieving superior detail
captioning performance while surpassing GPT-4o.Summary
AI-Generated Summary