픽셀에서 산문으로: 고밀도 이미지 캡션 데이터셋
From Pixels to Prose: A Large Dataset of Dense Image Captions
June 14, 2024
저자: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI
초록
대규모 시각-언어 모델을 학습시키기 위해서는 방대하고 고품질의 이미지-텍스트 쌍이 필요합니다. 그러나 기존의 웹 스크랩 데이터셋은 노이즈가 많고 상세한 이미지 설명이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 PixelProse를 소개합니다. 이는 최첨단 시각-언어 모델을 활용하여 생성된 1,600만 개 이상의 합성 캡션으로 구성된 포괄적인 데이터셋으로, 상세하고 정확한 설명을 제공합니다. 데이터 무결성을 보장하기 위해, 우리는 아동 성적 학대 자료(CSAM), 개인 식별 정보(PII), 유해성 등 문제가 있는 콘텐츠를 엄격히 분석했습니다. 또한 워터마크 존재 여부와 미적 점수와 같은 유용한 메타데이터를 제공하여 데이터셋 추가 필터링을 지원합니다. 우리는 PixelProse가 향후 시각-언어 연구에 귀중한 자원이 되기를 바랍니다. PixelProse는 https://huggingface.co/datasets/tomg-group-umd/pixelprose에서 이용 가능합니다.
English
Training large vision-language models requires extensive, high-quality
image-text pairs. Existing web-scraped datasets, however, are noisy and lack
detailed image descriptions. To bridge this gap, we introduce PixelProse, a
comprehensive dataset of over 16M (million) synthetically generated captions,
leveraging cutting-edge vision-language models for detailed and accurate
descriptions. To ensure data integrity, we rigorously analyze our dataset for
problematic content, including child sexual abuse material (CSAM), personally
identifiable information (PII), and toxicity. We also provide valuable metadata
such as watermark presence and aesthetic scores, aiding in further dataset
filtering. We hope PixelProse will be a valuable resource for future
vision-language research. PixelProse is available at
https://huggingface.co/datasets/tomg-group-umd/pixelprose