De píxeles a prosa: Un gran conjunto de datos de descripciones densas de imágenes
From Pixels to Prose: A Large Dataset of Dense Image Captions
June 14, 2024
Autores: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI
Resumen
El entrenamiento de grandes modelos de visión y lenguaje requiere pares extensos y de alta calidad de imágenes y texto. Sin embargo, los conjuntos de datos extraídos de la web existentes son ruidosos y carecen de descripciones detalladas de las imágenes. Para cerrar esta brecha, presentamos PixelProse, un conjunto de datos integral que contiene más de 16 millones de descripciones generadas sintéticamente, aprovechando modelos de vanguardia de visión y lenguaje para obtener descripciones detalladas y precisas. Para garantizar la integridad de los datos, analizamos rigurosamente nuestro conjunto de datos en busca de contenido problemático, incluyendo material de abuso sexual infantil (CSAM), información personal identificable (PII) y toxicidad. También proporcionamos metadatos valiosos, como la presencia de marcas de agua y puntuaciones estéticas, que ayudan en el filtrado adicional del conjunto de datos. Esperamos que PixelProse sea un recurso valioso para futuras investigaciones en visión y lenguaje. PixelProse está disponible en https://huggingface.co/datasets/tomg-group-umd/pixelprose.
English
Training large vision-language models requires extensive, high-quality
image-text pairs. Existing web-scraped datasets, however, are noisy and lack
detailed image descriptions. To bridge this gap, we introduce PixelProse, a
comprehensive dataset of over 16M (million) synthetically generated captions,
leveraging cutting-edge vision-language models for detailed and accurate
descriptions. To ensure data integrity, we rigorously analyze our dataset for
problematic content, including child sexual abuse material (CSAM), personally
identifiable information (PII), and toxicity. We also provide valuable metadata
such as watermark presence and aesthetic scores, aiding in further dataset
filtering. We hope PixelProse will be a valuable resource for future
vision-language research. PixelProse is available at
https://huggingface.co/datasets/tomg-group-umd/pixelproseSummary
AI-Generated Summary