Van Pixels naar Proza: Een Grote Dataset met Dichte Beeldbeschrijvingen
From Pixels to Prose: A Large Dataset of Dense Image Captions
June 14, 2024
Auteurs: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI
Samenvatting
Het trainen van grote visueel-taalkundige modellen vereist uitgebreide, hoogwaardige afbeelding-tekst paren. Bestaande, van het web geschraapte datasets zijn echter rommelig en missen gedetailleerde afbeeldingsbeschrijvingen. Om deze kloof te overbruggen, introduceren we PixelProse, een uitgebreide dataset van meer dan 16 miljoen synthetisch gegenereerde bijschriften, waarbij gebruik wordt gemaakt van state-of-the-art visueel-taalkundige modellen voor gedetailleerde en nauwkeurige beschrijvingen. Om de integriteit van de gegevens te waarborgen, analyseren we onze dataset grondig op problematische inhoud, waaronder materiaal met betrekking tot seksueel misbruik van kinderen (CSAM), persoonlijk identificeerbare informatie (PII) en toxiciteit. We bieden ook waardevolle metadata, zoals de aanwezigheid van watermerken en esthetische scores, die helpen bij verdere filtering van de dataset. We hopen dat PixelProse een waardevolle bron zal zijn voor toekomstig visueel-taalkundig onderzoek. PixelProse is beschikbaar op https://huggingface.co/datasets/tomg-group-umd/pixelprose.
English
Training large vision-language models requires extensive, high-quality
image-text pairs. Existing web-scraped datasets, however, are noisy and lack
detailed image descriptions. To bridge this gap, we introduce PixelProse, a
comprehensive dataset of over 16M (million) synthetically generated captions,
leveraging cutting-edge vision-language models for detailed and accurate
descriptions. To ensure data integrity, we rigorously analyze our dataset for
problematic content, including child sexual abuse material (CSAM), personally
identifiable information (PII), and toxicity. We also provide valuable metadata
such as watermark presence and aesthetic scores, aiding in further dataset
filtering. We hope PixelProse will be a valuable resource for future
vision-language research. PixelProse is available at
https://huggingface.co/datasets/tomg-group-umd/pixelprose