ChatPaper.aiChatPaper

Laten we Winkelen (LGS) -- Een Web-Schaal Beeld-Tekst Dataset voor Visueel Conceptueel Begrip

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding

January 9, 2024
Auteurs: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
cs.AI

Samenvatting

Visuele en visueel-taalkundige toepassingen van neurale netwerken, zoals beeldclassificatie en beeldbeschrijving, zijn afhankelijk van grootschalige geannoteerde datasets die niet-triviale datacollectieprocessen vereisen. Deze tijdrovende onderneming belemmert het ontstaan van grootschalige datasets, waardoor onderzoekers en praktijkmensen beperkt blijven tot een klein aantal keuzes. Daarom zoeken we naar efficiëntere manieren om afbeeldingen te verzamelen en te annoteren. Eerdere initiatieven hebben bijschriften verzameld uit HTML alt-teksten en sociale media-berichten, maar deze databronnen lijden onder ruis, schaarste of subjectiviteit. Om deze reden richten we ons op commerciële winkelwebsites waarvan de data aan drie criteria voldoen: netheid, informatiefheid en vloeiendheid. We introduceren de Let's Go Shopping (LGS) dataset, een grootschalige openbare dataset met 15 miljoen afbeelding-bijschrift-paren van publiek beschikbare e-commerce websites. In vergelijking met bestaande algemene domeindatasets, focussen de LGS-afbeeldingen zich op het voorgrondobject en hebben ze minder complexe achtergronden. Onze experimenten op LGS tonen aan dat classificatoren die getraind zijn op bestaande benchmarkdatasets niet gemakkelijk generaliseren naar e-commerce data, terwijl specifieke zelf-supervisie visuele feature extractors beter kunnen generaliseren. Bovendien maken de hoogwaardige, op e-commerce gerichte afbeeldingen en bimodale aard van LGS het voordelig voor visueel-taalkundige bimodale taken: LGS stelt beeldbeschrijvingsmodellen in staat om rijkere bijschriften te genereren en helpt tekst-naar-beeld generatiemodellen om e-commerce stijloverdracht te bereiken.
English
Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets that require non-trivial data-collecting processes. This time-consuming endeavor hinders the emergence of large-scale datasets, limiting researchers and practitioners to a small number of choices. Therefore, we seek more efficient ways to collect and annotate images. Previous initiatives have gathered captions from HTML alt-texts and crawled social media postings, but these data sources suffer from noise, sparsity, or subjectivity. For this reason, we turn to commercial shopping websites whose data meet three criteria: cleanliness, informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset, a large-scale public dataset with 15 million image-caption pairs from publicly available e-commerce websites. When compared with existing general-domain datasets, the LGS images focus on the foreground object and have less complex backgrounds. Our experiments on LGS show that the classifiers trained on existing benchmark datasets do not readily generalize to e-commerce data, while specific self-supervised visual feature extractors can better generalize. Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature make it advantageous for vision-language bi-modal tasks: LGS enables image-captioning models to generate richer captions and helps text-to-image generation models achieve e-commerce style transfer.
PDF174December 15, 2024