Een Afbeelding is Meer Waard Dan 77 Teksttokens: Evaluatie van CLIP-Style Modellen op Dichte Bijschriften
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions
December 14, 2023
Auteurs: Jack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano
cs.AI
Samenvatting
Curatiemethoden voor grootschalige visueel-taalkundige datasets balanceren tussen
datasetgrootte en kwaliteit. Echter, zelfs de hoogste kwaliteit van beschikbare
gecurateerde bijschriften zijn veel te kort om de rijke visuele details in een
afbeelding vast te leggen. Om de waarde van dichte en sterk uitgelijnde afbeelding-tekstparen
aan te tonen, verzamelen we de Densely Captioned Images (DCI) dataset, die 8012 natuurlijke
afbeeldingen bevat die door mensen zijn geannoteerd met masker-uitgelijnde beschrijvingen
van gemiddeld meer dan 1000 woorden per stuk. Met precieze en betrouwbare bijschriften die
gekoppeld zijn aan specifieke delen van een afbeelding, kunnen we het begrip van
afbeeldingsinhoud door visueel-taalkundige modellen (VLMs) evalueren met een nieuwe taak
die elk bijschrift matcht met het bijbehorende subgewas. Aangezien huidige modellen vaak
beperkt zijn tot 77 teksttokens, introduceren we ook een samengevatte versie (sDCI) waarin
de lengte van elk bijschrift beperkt is. We laten zien dat moderne technieken die vooruitgang
boeken op standaardbenchmarks niet overeenkomen met significante verbetering op onze
sDCI-gebaseerde benchmark. Tot slot finetunen we CLIP met sDCI en tonen we significante
verbeteringen ten opzichte van de baseline, ondanks een kleine trainingsset. Door de eerste
door mensen geannoteerde dichte afbeeldingsbeschrijvingsdataset vrij te geven, hopen we de
ontwikkeling van nieuwe benchmarks of fine-tuningrecepten voor de volgende generatie VLMs
mogelijk te maken.
English
Curation methods for massive vision-language datasets trade off between
dataset size and quality. However, even the highest quality of available
curated captions are far too short to capture the rich visual detail in an
image. To show the value of dense and highly-aligned image-text pairs, we
collect the Densely Captioned Images (DCI) dataset, containing 8012 natural
images human-annotated with mask-aligned descriptions averaging above 1000
words each. With precise and reliable captions associated with specific parts
of an image, we can evaluate vision-language models' (VLMs) understanding of
image content with a novel task that matches each caption with its
corresponding subcrop. As current models are often limited to 77 text tokens,
we also introduce a summarized version (sDCI) in which each caption length is
limited. We show that modern techniques that make progress on standard
benchmarks do not correspond with significant improvement on our sDCI based
benchmark. Lastly, we finetune CLIP using sDCI and show significant
improvements over the baseline despite a small training set. By releasing the
first human annotated dense image captioning dataset, we hope to enable the
development of new benchmarks or fine-tuning recipes for the next generation of
VLMs to come.