ChatPaper.aiChatPaper

Let's Go Shopping (LGS) — Веб-масштабный набор данных изображений и текстов для понимания визуальных концепций

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding

January 9, 2024
Авторы: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
cs.AI

Аннотация

Приложения нейронных сетей в области компьютерного зрения и обработки визуально-текстовых данных, такие как классификация изображений и генерация подписей, зависят от крупномасштабных аннотированных наборов данных, сбор которых требует значительных усилий. Этот трудоемкий процесс ограничивает появление крупных наборов данных, оставляя исследователям и практикам лишь небольшой выбор. Поэтому мы стремимся найти более эффективные способы сбора и аннотирования изображений. Предыдущие инициативы включали сбор подписей из HTML-альтернативных текстов и данных из социальных сетей, однако такие источники страдают от шума, разреженности или субъективности. По этой причине мы обращаемся к коммерческим интернет-магазинам, чьи данные соответствуют трем критериям: чистота, информативность и грамотность. Мы представляем набор данных Let's Go Shopping (LGS) — крупномасштабный публичный набор, содержащий 15 миллионов пар изображение-подпись, собранных с общедоступных сайтов электронной коммерции. В сравнении с существующими наборами данных общего назначения, изображения в LGS сосредоточены на объекте переднего плана и имеют менее сложный фон. Наши эксперименты с LGS показывают, что классификаторы, обученные на существующих эталонных наборах данных, не всегда хорошо обобщаются на данные электронной коммерции, в то время как специализированные самообучаемые экстракторы визуальных признаков демонстрируют лучшую обобщаемость. Кроме того, высококачественные изображения в LGS, ориентированные на электронную коммерцию, и их бимодальная природа делают этот набор данных особенно полезным для задач, связанных с обработкой визуально-текстовых данных: LGS позволяет моделям генерации подписей создавать более насыщенные описания и помогает моделям генерации изображений из текста достигать стилевого переноса в стиле электронной коммерции.
English
Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets that require non-trivial data-collecting processes. This time-consuming endeavor hinders the emergence of large-scale datasets, limiting researchers and practitioners to a small number of choices. Therefore, we seek more efficient ways to collect and annotate images. Previous initiatives have gathered captions from HTML alt-texts and crawled social media postings, but these data sources suffer from noise, sparsity, or subjectivity. For this reason, we turn to commercial shopping websites whose data meet three criteria: cleanliness, informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset, a large-scale public dataset with 15 million image-caption pairs from publicly available e-commerce websites. When compared with existing general-domain datasets, the LGS images focus on the foreground object and have less complex backgrounds. Our experiments on LGS show that the classifiers trained on existing benchmark datasets do not readily generalize to e-commerce data, while specific self-supervised visual feature extractors can better generalize. Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature make it advantageous for vision-language bi-modal tasks: LGS enables image-captioning models to generate richer captions and helps text-to-image generation models achieve e-commerce style transfer.
PDF174December 15, 2024