Let's Go Shopping (LGS) - Dataset su scala web di immagini e testo per la comprensione di concetti visivi
Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding
January 9, 2024
Autori: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
cs.AI
Abstract
Le applicazioni delle reti neurali nel campo della visione e della visione-linguaggio, come la classificazione delle immagini e la generazione di didascalie, si basano su dataset annotati su larga scala che richiedono processi di raccolta dati non banali. Questo sforzo dispendioso in termini di tempo ostacola l'emergere di dataset su larga scala, limitando ricercatori e professionisti a un numero ridotto di opzioni. Pertanto, cerchiamo modi più efficienti per raccogliere e annotare immagini. Iniziative precedenti hanno raccolto didascalie da testi alternativi HTML e da post sui social media, ma queste fonti di dati sono affette da rumore, scarsità o soggettività. Per questo motivo, ci rivolgiamo ai siti web di shopping commerciali, i cui dati soddisfano tre criteri: pulizia, informatività e fluidità. Introduciamo il dataset Let's Go Shopping (LGS), un dataset pubblico su larga scala con 15 milioni di coppie immagine-didascalia provenienti da siti web di e-commerce pubblicamente disponibili. Rispetto ai dataset esistenti di dominio generale, le immagini di LGS si concentrano sull'oggetto in primo piano e hanno sfondi meno complessi. I nostri esperimenti su LGS mostrano che i classificatori addestrati su dataset di benchmark esistenti non si generalizzano facilmente ai dati di e-commerce, mentre specifici estrattori di caratteristiche visive auto-supervisionati possono generalizzare meglio. Inoltre, le immagini di alta qualità focalizzate sull'e-commerce e la natura bimodale di LGS lo rendono vantaggioso per i task bimodali visione-linguaggio: LGS consente ai modelli di generazione di didascalie di produrre descrizioni più ricche e aiuta i modelli di generazione di immagini da testo a ottenere il trasferimento di stile e-commerce.
English
Vision and vision-language applications of neural networks, such as image
classification and captioning, rely on large-scale annotated datasets that
require non-trivial data-collecting processes. This time-consuming endeavor
hinders the emergence of large-scale datasets, limiting researchers and
practitioners to a small number of choices. Therefore, we seek more efficient
ways to collect and annotate images. Previous initiatives have gathered
captions from HTML alt-texts and crawled social media postings, but these data
sources suffer from noise, sparsity, or subjectivity. For this reason, we turn
to commercial shopping websites whose data meet three criteria: cleanliness,
informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset,
a large-scale public dataset with 15 million image-caption pairs from publicly
available e-commerce websites. When compared with existing general-domain
datasets, the LGS images focus on the foreground object and have less complex
backgrounds. Our experiments on LGS show that the classifiers trained on
existing benchmark datasets do not readily generalize to e-commerce data, while
specific self-supervised visual feature extractors can better generalize.
Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature
make it advantageous for vision-language bi-modal tasks: LGS enables
image-captioning models to generate richer captions and helps text-to-image
generation models achieve e-commerce style transfer.