Schilderen met Woorden: Verbetering van Gedetailleerde Beeldbeschrijvingen met Benchmark en Afstemmingsleren

Samenvatting

Beeldbeschrijving is al lang een cruciale taak in visueel begrip, waarbij recente vooruitgang in visueel-taalmodelen (VLM's) het vermogen om gedetailleerde beeldbeschrijvingen te genereren aanzienlijk heeft verbeterd. De evaluatie van gedetailleerde beeldbeschrijvingen blijft echter onderbelicht vanwege verouderde evaluatiemetrics en grove annotaties. In dit artikel introduceren we DeCapBench samen met een nieuwe metric, DCScore, die specifiek is ontworpen voor gedetailleerde beschrijvingstaken. DCScore evalueert hallucinaties en fijnmazige volledigheid door reacties te ontleden in de kleinste zelfvoorzienende eenheden, genaamd primitieve informatie-eenheden, en deze individueel te beoordelen. Onze evaluatie toont aan dat DCScore beter aansluit bij menselijk oordeel dan andere op regels gebaseerde of modelgebaseerde metrics. Tegelijkertijd vertoont DeCapBench een hoge correlatie met VLM-arenaresultaten op beschrijvende taken, waarbij het bestaande benchmarks voor visueel-taalmodelen overtreft. Daarnaast presenteren we een automatische methode voor het verzamelen van fijnmazige feedback, FeedQuill, voor voorkeursoptimalisatie op basis van onze geavanceerde metric, die robuuste generalisatiecapaciteiten laat zien over automatisch gegenereerde voorkeursdata. Uitgebreide experimenten op meerdere VLM's tonen aan dat onze methode niet alleen hallucinaties aanzienlijk vermindert, maar ook de prestaties op verschillende benchmarks verbetert, waarbij superieure prestaties in gedetailleerde beschrijvingen worden bereikt en GPT-4o wordt overtroffen.

English

Image captioning has long been a pivotal task in visual understanding, with recent advancements in vision-language models (VLMs) significantly enhancing the ability to generate detailed image captions. However, the evaluation of detailed image captioning remains underexplored due to outdated evaluation metrics and coarse annotations. In this paper, we introduce DeCapBench along with a novel metric, DCScore, specifically designed for detailed captioning tasks. DCScore evaluates hallucinations and fine-grained comprehensiveness by deconstructing responses into the smallest self-sufficient units, termed primitive information units, and assessing them individually. Our evaluation shows that DCScore aligns more closely with human judgment than other rule-based or model-based metrics. Concurrently, DeCapBench exhibits a high correlation with VLM arena results on descriptive tasks, surpassing existing benchmarks for vision-language models. Additionally, we present an automatic fine-grained feedback collection method, FeedQuill, for preference optimization based on our advanced metric, showing robust generalization capabilities across auto-generated preference data. Extensive experiments on multiple VLMs demonstrate that our method not only significantly reduces hallucinations but also enhances performance across various benchmarks, achieving superior detail captioning performance while surpassing GPT-4o.

Schilderen met Woorden: Verbetering van Gedetailleerde Beeldbeschrijvingen met Benchmark en Afstemmingsleren

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

Samenvatting

Support