Let's Go Shopping (LGS) — Jeu de données image-texte à l'échelle du web pour la compréhension des concepts visuels
Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding
January 9, 2024
Auteurs: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
cs.AI
Résumé
Les applications des réseaux de neuronaux dans les domaines de la vision et de la vision-langage, telles que la classification d'images et la génération de légendes, reposent sur des ensembles de données annotées à grande échelle qui nécessitent des processus de collecte de données complexes. Cette entreprise chronophage entrave l'émergence de jeux de données à grande échelle, limitant les chercheurs et les praticiens à un nombre restreint d'options. Par conséquent, nous cherchons des moyens plus efficaces de collecter et d'annoter des images. Des initiatives précédentes ont rassemblé des légendes à partir des textes alternatifs HTML et des publications sur les réseaux sociaux, mais ces sources de données souffrent de bruit, de rareté ou de subjectivité. Pour cette raison, nous nous tournons vers les sites de commerce en ligne dont les données répondent à trois critères : propreté, informativité et fluidité. Nous présentons le jeu de données Let's Go Shopping (LGS), un ensemble de données public à grande échelle comprenant 15 millions de paires image-légende provenant de sites de commerce en ligne accessibles au public. Comparé aux jeux de données généralistes existants, les images de LGS se concentrent sur l'objet au premier plan et présentent des arrière-plans moins complexes. Nos expériences sur LGS montrent que les classificateurs entraînés sur les ensembles de données de référence existants ne se généralisent pas facilement aux données de commerce en ligne, tandis que des extracteurs de caractéristiques visuelles auto-supervisés spécifiques peuvent mieux généraliser. De plus, la nature bimodale et la haute qualité des images axées sur le commerce en ligne de LGS en font un atout pour les tâches bimodales vision-langage : LGS permet aux modèles de génération de légendes d'images de produire des descriptions plus riches et aide les modèles de génération d'images à partir de texte à réaliser un transfert de style adapté au commerce en ligne.
English
Vision and vision-language applications of neural networks, such as image
classification and captioning, rely on large-scale annotated datasets that
require non-trivial data-collecting processes. This time-consuming endeavor
hinders the emergence of large-scale datasets, limiting researchers and
practitioners to a small number of choices. Therefore, we seek more efficient
ways to collect and annotate images. Previous initiatives have gathered
captions from HTML alt-texts and crawled social media postings, but these data
sources suffer from noise, sparsity, or subjectivity. For this reason, we turn
to commercial shopping websites whose data meet three criteria: cleanliness,
informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset,
a large-scale public dataset with 15 million image-caption pairs from publicly
available e-commerce websites. When compared with existing general-domain
datasets, the LGS images focus on the foreground object and have less complex
backgrounds. Our experiments on LGS show that the classifiers trained on
existing benchmark datasets do not readily generalize to e-commerce data, while
specific self-supervised visual feature extractors can better generalize.
Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature
make it advantageous for vision-language bi-modal tasks: LGS enables
image-captioning models to generate richer captions and helps text-to-image
generation models achieve e-commerce style transfer.