ChatPaper.aiChatPaper

Let's Go Shopping (LGS) — 시각적 개념 이해를 위한 웹 스케일 이미지-텍스트 데이터셋

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding

January 9, 2024
저자: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
cs.AI

초록

이미지 분류 및 캡셔닝과 같은 신경망의 비전 및 비전-언어 응용은 대규모 주석 데이터셋에 의존하며, 이는 상당한 데이터 수집 과정을 필요로 합니다. 이러한 시간 소모적인 작업은 대규모 데이터셋의 출현을 저해하여 연구자와 실무자들이 선택할 수 있는 옵션을 제한합니다. 따라서 우리는 더 효율적인 이미지 수집 및 주석 달기 방법을 모색합니다. 이전의 시도들은 HTML 대체 텍스트와 소셜 미디어 게시물에서 캡션을 수집했지만, 이러한 데이터 소스는 노이즈, 희소성 또는 주관성으로 인해 문제가 있었습니다. 이러한 이유로 우리는 세 가지 기준(청결성, 정보성, 유창성)을 충족하는 상업적 쇼핑 웹사이트의 데이터를 활용합니다. 우리는 공개적으로 이용 가능한 전자상거래 웹사이트에서 수집된 1,500만 개의 이미지-캡션 쌍으로 구성된 대규모 공개 데이터셋인 Let's Go Shopping(LGS) 데이터셋을 소개합니다. 기존의 일반 도메인 데이터셋과 비교했을 때, LGS 이미지는 전경 객체에 초점을 맞추고 배경이 덜 복잡합니다. LGS에 대한 실험 결과, 기존 벤치마크 데이터셋에서 훈련된 분류기는 전자상거래 데이터로 쉽게 일반화되지 않는 반면, 특정 자기 지도 시각적 특징 추출기는 더 잘 일반화할 수 있음을 보여줍니다. 또한, LGS의 고품질 전자상거래 중심 이미지와 이중 모달 특성은 비전-언어 이중 모달 작업에 유리합니다: LGS는 이미지 캡셔닝 모델이 더 풍부한 캡션을 생성할 수 있게 하고, 텍스트-이미지 생성 모델이 전자상거래 스타일 전이를 달성하는 데 도움을 줍니다.
English
Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets that require non-trivial data-collecting processes. This time-consuming endeavor hinders the emergence of large-scale datasets, limiting researchers and practitioners to a small number of choices. Therefore, we seek more efficient ways to collect and annotate images. Previous initiatives have gathered captions from HTML alt-texts and crawled social media postings, but these data sources suffer from noise, sparsity, or subjectivity. For this reason, we turn to commercial shopping websites whose data meet three criteria: cleanliness, informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset, a large-scale public dataset with 15 million image-caption pairs from publicly available e-commerce websites. When compared with existing general-domain datasets, the LGS images focus on the foreground object and have less complex backgrounds. Our experiments on LGS show that the classifiers trained on existing benchmark datasets do not readily generalize to e-commerce data, while specific self-supervised visual feature extractors can better generalize. Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature make it advantageous for vision-language bi-modal tasks: LGS enables image-captioning models to generate richer captions and helps text-to-image generation models achieve e-commerce style transfer.
PDF174December 15, 2024