Uma Imagem Vale Mais que 77 Tokens de Texto: Avaliando Modelos no Estilo CLIP em Legendas Densas
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions
December 14, 2023
Autores: Jack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano
cs.AI
Resumo
Métodos de curadoria para grandes conjuntos de dados visão-linguagem envolvem um equilíbrio entre o tamanho e a qualidade do conjunto de dados. No entanto, mesmo as legendas curadas de mais alta qualidade disponíveis são muito curtas para capturar os detalhes visuais ricos de uma imagem. Para demonstrar o valor de pares imagem-texto densos e altamente alinhados, coletamos o conjunto de dados Densely Captioned Images (DCI), contendo 8.012 imagens naturais anotadas manualmente com descrições alinhadas a máscaras, com uma média de mais de 1.000 palavras cada. Com legendas precisas e confiáveis associadas a partes específicas de uma imagem, podemos avaliar a compreensão de modelos visão-linguagem (VLMs) sobre o conteúdo da imagem com uma nova tarefa que associa cada legenda ao seu sub-recorte correspondente. Como os modelos atuais geralmente são limitados a 77 tokens de texto, também introduzimos uma versão resumida (sDCI) na qual o comprimento de cada legenda é limitado. Mostramos que técnicas modernas que avançam em benchmarks padrão não correspondem a melhorias significativas em nosso benchmark baseado no sDCI. Por fim, ajustamos o CLIP usando o sDCI e mostramos melhorias significativas em relação à linha de base, apesar de um conjunto de treinamento pequeno. Ao liberar o primeiro conjunto de dados de legendagem densa de imagens anotado manualmente, esperamos possibilitar o desenvolvimento de novos benchmarks ou receitas de ajuste fino para a próxima geração de VLMs.
English
Curation methods for massive vision-language datasets trade off between
dataset size and quality. However, even the highest quality of available
curated captions are far too short to capture the rich visual detail in an
image. To show the value of dense and highly-aligned image-text pairs, we
collect the Densely Captioned Images (DCI) dataset, containing 8012 natural
images human-annotated with mask-aligned descriptions averaging above 1000
words each. With precise and reliable captions associated with specific parts
of an image, we can evaluate vision-language models' (VLMs) understanding of
image content with a novel task that matches each caption with its
corresponding subcrop. As current models are often limited to 77 text tokens,
we also introduce a summarized version (sDCI) in which each caption length is
limited. We show that modern techniques that make progress on standard
benchmarks do not correspond with significant improvement on our sDCI based
benchmark. Lastly, we finetune CLIP using sDCI and show significant
improvements over the baseline despite a small training set. By releasing the
first human annotated dense image captioning dataset, we hope to enable the
development of new benchmarks or fine-tuning recipes for the next generation of
VLMs to come.