Vamos às Compras (LGS) -- Conjunto de Dados de Imagem-Texto em Escala Web para Compreensão de Conceitos Visuais
Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding
January 9, 2024
Autores: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
cs.AI
Resumo
Aplicações de redes neurais em visão e visão-linguagem, como classificação de imagens e geração de legendas, dependem de grandes conjuntos de dados anotados que exigem processos não triviais de coleta de dados. Esse esforço demorado dificulta o surgimento de conjuntos de dados em grande escala, limitando pesquisadores e profissionais a um número reduzido de opções. Portanto, buscamos maneiras mais eficientes de coletar e anotar imagens. Iniciativas anteriores coletaram legendas a partir de textos alternativos (alt-texts) em HTML e postagens de mídias sociais, mas essas fontes de dados sofrem com ruído, esparsidade ou subjetividade. Por esse motivo, voltamo-nos para sites comerciais de compras, cujos dados atendem a três critérios: limpeza, informatividade e fluência. Apresentamos o conjunto de dados Let's Go Shopping (LGS), um grande conjunto de dados público com 15 milhões de pares imagem-legenda obtidos de sites de e-commerce disponíveis publicamente. Quando comparado com conjuntos de dados existentes de domínio geral, as imagens do LGS focam no objeto em primeiro plano e possuem fundos menos complexos. Nossos experimentos com o LGS mostram que classificadores treinados em conjuntos de dados de referência existentes não generalizam facilmente para dados de e-commerce, enquanto extratores de características visuais auto-supervisionados específicos podem generalizar melhor. Além disso, as imagens de alta qualidade focadas em e-commerce e a natureza bimodal do LGS o tornam vantajoso para tarefas bimodais de visão-linguagem: o LGS permite que modelos de geração de legendas produzam descrições mais ricas e ajuda modelos de geração de texto para imagem a alcançar transferência de estilo no contexto de e-commerce.
English
Vision and vision-language applications of neural networks, such as image
classification and captioning, rely on large-scale annotated datasets that
require non-trivial data-collecting processes. This time-consuming endeavor
hinders the emergence of large-scale datasets, limiting researchers and
practitioners to a small number of choices. Therefore, we seek more efficient
ways to collect and annotate images. Previous initiatives have gathered
captions from HTML alt-texts and crawled social media postings, but these data
sources suffer from noise, sparsity, or subjectivity. For this reason, we turn
to commercial shopping websites whose data meet three criteria: cleanliness,
informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset,
a large-scale public dataset with 15 million image-caption pairs from publicly
available e-commerce websites. When compared with existing general-domain
datasets, the LGS images focus on the foreground object and have less complex
backgrounds. Our experiments on LGS show that the classifiers trained on
existing benchmark datasets do not readily generalize to e-commerce data, while
specific self-supervised visual feature extractors can better generalize.
Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature
make it advantageous for vision-language bi-modal tasks: LGS enables
image-captioning models to generate richer captions and helps text-to-image
generation models achieve e-commerce style transfer.