ChatPaper.aiChatPaper

Van Pixels naar Proza: Een Grote Dataset met Dichte Beeldbeschrijvingen

From Pixels to Prose: A Large Dataset of Dense Image Captions

June 14, 2024
Auteurs: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI

Samenvatting

Het trainen van grote visueel-taalkundige modellen vereist uitgebreide, hoogwaardige afbeelding-tekst paren. Bestaande, van het web geschraapte datasets zijn echter rommelig en missen gedetailleerde afbeeldingsbeschrijvingen. Om deze kloof te overbruggen, introduceren we PixelProse, een uitgebreide dataset van meer dan 16 miljoen synthetisch gegenereerde bijschriften, waarbij gebruik wordt gemaakt van state-of-the-art visueel-taalkundige modellen voor gedetailleerde en nauwkeurige beschrijvingen. Om de integriteit van de gegevens te waarborgen, analyseren we onze dataset grondig op problematische inhoud, waaronder materiaal met betrekking tot seksueel misbruik van kinderen (CSAM), persoonlijk identificeerbare informatie (PII) en toxiciteit. We bieden ook waardevolle metadata, zoals de aanwezigheid van watermerken en esthetische scores, die helpen bij verdere filtering van de dataset. We hopen dat PixelProse een waardevolle bron zal zijn voor toekomstig visueel-taalkundig onderzoek. PixelProse is beschikbaar op https://huggingface.co/datasets/tomg-group-umd/pixelprose.
English
Training large vision-language models requires extensive, high-quality image-text pairs. Existing web-scraped datasets, however, are noisy and lack detailed image descriptions. To bridge this gap, we introduce PixelProse, a comprehensive dataset of over 16M (million) synthetically generated captions, leveraging cutting-edge vision-language models for detailed and accurate descriptions. To ensure data integrity, we rigorously analyze our dataset for problematic content, including child sexual abuse material (CSAM), personally identifiable information (PII), and toxicity. We also provide valuable metadata such as watermark presence and aesthetic scores, aiding in further dataset filtering. We hope PixelProse will be a valuable resource for future vision-language research. PixelProse is available at https://huggingface.co/datasets/tomg-group-umd/pixelprose
PDF182February 8, 2026