ChatPaper.aiChatPaper

Una imagen vale más que 77 tokens de texto: Evaluación de modelos estilo CLIP en descripciones densas

A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

December 14, 2023
Autores: Jack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano
cs.AI

Resumen

Los métodos de curaduría para conjuntos masivos de datos de visión y lenguaje buscan equilibrar el tamaño del conjunto de datos con su calidad. Sin embargo, incluso los subtítulos curados de mayor calidad disponibles son demasiado breves para capturar los detalles visuales ricos en una imagen. Para demostrar el valor de pares imagen-texto densos y altamente alineados, recopilamos el conjunto de datos Densely Captioned Images (DCI), que contiene 8012 imágenes naturales anotadas manualmente con descripciones alineadas a máscaras que promedian más de 1000 palabras cada una. Con subtítulos precisos y confiables asociados a partes específicas de una imagen, podemos evaluar la comprensión del contenido visual de los modelos de visión y lenguaje (VLMs) mediante una tarea novedosa que empareja cada subtítulo con su subrecorte correspondiente. Dado que los modelos actuales suelen estar limitados a 77 tokens de texto, también introducimos una versión resumida (sDCI) en la que se limita la longitud de cada subtítulo. Demostramos que las técnicas modernas que muestran avances en los puntos de referencia estándar no se corresponden con mejoras significativas en nuestro punto de referencia basado en sDCI. Por último, ajustamos CLIP utilizando sDCI y mostramos mejoras significativas sobre la línea base a pesar de un conjunto de entrenamiento pequeño. Al publicar el primer conjunto de datos de subtitulación densa de imágenes anotado manualmente, esperamos habilitar el desarrollo de nuevos puntos de referencia o recetas de ajuste fino para la próxima generación de VLMs.
English
Curation methods for massive vision-language datasets trade off between dataset size and quality. However, even the highest quality of available curated captions are far too short to capture the rich visual detail in an image. To show the value of dense and highly-aligned image-text pairs, we collect the Densely Captioned Images (DCI) dataset, containing 8012 natural images human-annotated with mask-aligned descriptions averaging above 1000 words each. With precise and reliable captions associated with specific parts of an image, we can evaluate vision-language models' (VLMs) understanding of image content with a novel task that matches each caption with its corresponding subcrop. As current models are often limited to 77 text tokens, we also introduce a summarized version (sDCI) in which each caption length is limited. We show that modern techniques that make progress on standard benchmarks do not correspond with significant improvement on our sDCI based benchmark. Lastly, we finetune CLIP using sDCI and show significant improvements over the baseline despite a small training set. By releasing the first human annotated dense image captioning dataset, we hope to enable the development of new benchmarks or fine-tuning recipes for the next generation of VLMs to come.
PDF201December 15, 2024