ChatPaper.aiChatPaper

Een Afbeelding is Meer Waard Dan 77 Teksttokens: Evaluatie van CLIP-Style Modellen op Dichte Bijschriften

A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

December 14, 2023
Auteurs: Jack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano
cs.AI

Samenvatting

Curatiemethoden voor grootschalige visueel-taalkundige datasets balanceren tussen datasetgrootte en kwaliteit. Echter, zelfs de hoogste kwaliteit van beschikbare gecurateerde bijschriften zijn veel te kort om de rijke visuele details in een afbeelding vast te leggen. Om de waarde van dichte en sterk uitgelijnde afbeelding-tekstparen aan te tonen, verzamelen we de Densely Captioned Images (DCI) dataset, die 8012 natuurlijke afbeeldingen bevat die door mensen zijn geannoteerd met masker-uitgelijnde beschrijvingen van gemiddeld meer dan 1000 woorden per stuk. Met precieze en betrouwbare bijschriften die gekoppeld zijn aan specifieke delen van een afbeelding, kunnen we het begrip van afbeeldingsinhoud door visueel-taalkundige modellen (VLMs) evalueren met een nieuwe taak die elk bijschrift matcht met het bijbehorende subgewas. Aangezien huidige modellen vaak beperkt zijn tot 77 teksttokens, introduceren we ook een samengevatte versie (sDCI) waarin de lengte van elk bijschrift beperkt is. We laten zien dat moderne technieken die vooruitgang boeken op standaardbenchmarks niet overeenkomen met significante verbetering op onze sDCI-gebaseerde benchmark. Tot slot finetunen we CLIP met sDCI en tonen we significante verbeteringen ten opzichte van de baseline, ondanks een kleine trainingsset. Door de eerste door mensen geannoteerde dichte afbeeldingsbeschrijvingsdataset vrij te geven, hopen we de ontwikkeling van nieuwe benchmarks of fine-tuningrecepten voor de volgende generatie VLMs mogelijk te maken.
English
Curation methods for massive vision-language datasets trade off between dataset size and quality. However, even the highest quality of available curated captions are far too short to capture the rich visual detail in an image. To show the value of dense and highly-aligned image-text pairs, we collect the Densely Captioned Images (DCI) dataset, containing 8012 natural images human-annotated with mask-aligned descriptions averaging above 1000 words each. With precise and reliable captions associated with specific parts of an image, we can evaluate vision-language models' (VLMs) understanding of image content with a novel task that matches each caption with its corresponding subcrop. As current models are often limited to 77 text tokens, we also introduce a summarized version (sDCI) in which each caption length is limited. We show that modern techniques that make progress on standard benchmarks do not correspond with significant improvement on our sDCI based benchmark. Lastly, we finetune CLIP using sDCI and show significant improvements over the baseline despite a small training set. By releasing the first human annotated dense image captioning dataset, we hope to enable the development of new benchmarks or fine-tuning recipes for the next generation of VLMs to come.
PDF201February 9, 2026