Da Pixel a Prosa: Un Ampio Dataset di Descrizioni Dense di Immagini
From Pixels to Prose: A Large Dataset of Dense Image Captions
June 14, 2024
Autori: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI
Abstract
L'addestramento di modelli linguistico-visivi di grandi dimensioni richiede coppie immagine-testo estese e di alta qualità. Tuttavia, i dataset esistenti ottenuti tramite scraping web sono rumorosi e privi di descrizioni dettagliate delle immagini. Per colmare questa lacuna, introduciamo PixelProse, un dataset completo di oltre 16 milioni di didascalie generate sinteticamente, sfruttando modelli linguistico-visivi all'avanguardia per ottenere descrizioni dettagliate e accurate. Per garantire l'integrità dei dati, analizziamo rigorosamente il nostro dataset alla ricerca di contenuti problematici, tra cui materiale di abuso sessuale su minori (CSAM), informazioni personalmente identificabili (PII) e tossicità. Forniamo inoltre metadati preziosi come la presenza di filigrane e punteggi estetici, utili per un'ulteriore filtrazione del dataset. Speriamo che PixelProse possa rappresentare una risorsa preziosa per la futura ricerca nel campo linguistico-visivo. PixelProse è disponibile all'indirizzo https://huggingface.co/datasets/tomg-group-umd/pixelprose.
English
Training large vision-language models requires extensive, high-quality
image-text pairs. Existing web-scraped datasets, however, are noisy and lack
detailed image descriptions. To bridge this gap, we introduce PixelProse, a
comprehensive dataset of over 16M (million) synthetically generated captions,
leveraging cutting-edge vision-language models for detailed and accurate
descriptions. To ensure data integrity, we rigorously analyze our dataset for
problematic content, including child sexual abuse material (CSAM), personally
identifiable information (PII), and toxicity. We also provide valuable metadata
such as watermark presence and aesthetic scores, aiding in further dataset
filtering. We hope PixelProse will be a valuable resource for future
vision-language research. PixelProse is available at
https://huggingface.co/datasets/tomg-group-umd/pixelprose