ChatPaper.aiChatPaper

Let's Go Shopping (LGS) – Web-Scale Bild-Text-Datensatz für das Verständnis visueller Konzepte

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding

January 9, 2024
Autoren: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
cs.AI

Zusammenfassung

Vision- und Vision-Language-Anwendungen von neuronalen Netzen, wie Bildklassifizierung und Bildbeschriftung, basieren auf groß angelegten annotierten Datensätzen, deren Erstellung aufwendige Datenerfassungsprozesse erfordert. Dieser zeitintensive Aufwand behindert die Entstehung groß angelegter Datensätze und beschränkt Forscher und Praktiker auf eine begrenzte Auswahl. Daher suchen wir nach effizienteren Methoden zur Sammlung und Annotation von Bildern. Frühere Initiativen haben Bildbeschreibungen aus HTML-Alt-Texten und Social-Media-Beiträgen gesammelt, doch diese Datenquellen leiden unter Rauschen, Sparsity oder Subjektivität. Aus diesem Grund wenden wir uns kommerziellen E-Commerce-Websites zu, deren Daten drei Kriterien erfüllen: Sauberkeit, Informationsgehalt und Flüssigkeit. Wir stellen den Let's Go Shopping (LGS)-Datensatz vor, einen groß angelegten öffentlichen Datensatz mit 15 Millionen Bild-Beschreibungs-Paaren von öffentlich zugänglichen E-Commerce-Websites. Im Vergleich zu bestehenden allgemeinen Datensätzen konzentrieren sich die LGS-Bilder auf das Vordergrundobjekt und haben weniger komplexe Hintergründe. Unsere Experimente mit LGS zeigen, dass auf bestehenden Benchmark-Datensätzen trainierte Klassifikatoren nicht ohne Weiteres auf E-Commerce-Daten verallgemeinern können, während spezifische selbstüberwachte visuelle Feature-Extraktoren besser verallgemeinern. Darüber hinaus machen die hochwertigen, auf E-Commerce ausgerichteten Bilder und die bimodale Natur von LGS es vorteilhaft für Vision-Language-bimodale Aufgaben: LGS ermöglicht es Bildbeschreibungsmodellen, reichhaltigere Beschreibungen zu generieren, und hilft Text-zu-Bild-Generierungsmodellen, E-Commerce-Stiltransfers zu erreichen.
English
Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets that require non-trivial data-collecting processes. This time-consuming endeavor hinders the emergence of large-scale datasets, limiting researchers and practitioners to a small number of choices. Therefore, we seek more efficient ways to collect and annotate images. Previous initiatives have gathered captions from HTML alt-texts and crawled social media postings, but these data sources suffer from noise, sparsity, or subjectivity. For this reason, we turn to commercial shopping websites whose data meet three criteria: cleanliness, informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset, a large-scale public dataset with 15 million image-caption pairs from publicly available e-commerce websites. When compared with existing general-domain datasets, the LGS images focus on the foreground object and have less complex backgrounds. Our experiments on LGS show that the classifiers trained on existing benchmark datasets do not readily generalize to e-commerce data, while specific self-supervised visual feature extractors can better generalize. Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature make it advantageous for vision-language bi-modal tasks: LGS enables image-captioning models to generate richer captions and helps text-to-image generation models achieve e-commerce style transfer.
PDF174December 15, 2024