Vamos de Compras (LGS) -- Conjunto de Datos de Imagen-Texto a Escala Web para la Comprensión de Conceptos Visuales
Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding
January 9, 2024
Autores: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
cs.AI
Resumen
Las aplicaciones de visión y visión-lenguaje de las redes neuronales, como la clasificación de imágenes y la generación de descripciones, dependen de conjuntos de datos anotados a gran escala que requieren procesos no triviales de recopilación de datos. Esta tarea que consume mucho tiempo dificulta la aparición de conjuntos de datos a gran escala, limitando a investigadores y profesionales a un número reducido de opciones. Por lo tanto, buscamos formas más eficientes de recopilar y anotar imágenes. Iniciativas anteriores han recopilado descripciones a partir de textos alternativos en HTML y publicaciones rastreadas en redes sociales, pero estas fuentes de datos sufren de ruido, escasez o subjetividad. Por esta razón, recurrimos a sitios web comerciales de compras cuyos datos cumplen tres criterios: limpieza, informatividad y fluidez. Presentamos el conjunto de datos Let's Go Shopping (LGS), un conjunto de datos público a gran escala con 15 millones de pares de imagen-descripción obtenidos de sitios web de comercio electrónico disponibles públicamente. En comparación con los conjuntos de datos existentes de dominio general, las imágenes de LGS se centran en el objeto en primer plano y tienen fondos menos complejos. Nuestros experimentos en LGS muestran que los clasificadores entrenados en conjuntos de datos de referencia existentes no se generalizan fácilmente a datos de comercio electrónico, mientras que los extractores de características visuales específicos de aprendizaje autosupervisado pueden generalizar mejor. Además, las imágenes de alta calidad centradas en el comercio electrónico y la naturaleza bimodal de LGS lo hacen ventajoso para tareas bimodales de visión-lenguaje: LGS permite que los modelos de generación de descripciones de imágenes produzcan descripciones más ricas y ayuda a los modelos de generación de imágenes a partir de texto a lograr transferencias de estilo de comercio electrónico.
English
Vision and vision-language applications of neural networks, such as image
classification and captioning, rely on large-scale annotated datasets that
require non-trivial data-collecting processes. This time-consuming endeavor
hinders the emergence of large-scale datasets, limiting researchers and
practitioners to a small number of choices. Therefore, we seek more efficient
ways to collect and annotate images. Previous initiatives have gathered
captions from HTML alt-texts and crawled social media postings, but these data
sources suffer from noise, sparsity, or subjectivity. For this reason, we turn
to commercial shopping websites whose data meet three criteria: cleanliness,
informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset,
a large-scale public dataset with 15 million image-caption pairs from publicly
available e-commerce websites. When compared with existing general-domain
datasets, the LGS images focus on the foreground object and have less complex
backgrounds. Our experiments on LGS show that the classifiers trained on
existing benchmark datasets do not readily generalize to e-commerce data, while
specific self-supervised visual feature extractors can better generalize.
Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature
make it advantageous for vision-language bi-modal tasks: LGS enables
image-captioning models to generate richer captions and helps text-to-image
generation models achieve e-commerce style transfer.