ChatPaper.aiChatPaper

De píxeles a prosa: Un gran conjunto de datos de descripciones densas de imágenes

From Pixels to Prose: A Large Dataset of Dense Image Captions

June 14, 2024
Autores: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI

Resumen

El entrenamiento de grandes modelos de visión y lenguaje requiere pares extensos y de alta calidad de imágenes y texto. Sin embargo, los conjuntos de datos extraídos de la web existentes son ruidosos y carecen de descripciones detalladas de las imágenes. Para cerrar esta brecha, presentamos PixelProse, un conjunto de datos integral que contiene más de 16 millones de descripciones generadas sintéticamente, aprovechando modelos de vanguardia de visión y lenguaje para obtener descripciones detalladas y precisas. Para garantizar la integridad de los datos, analizamos rigurosamente nuestro conjunto de datos en busca de contenido problemático, incluyendo material de abuso sexual infantil (CSAM), información personal identificable (PII) y toxicidad. También proporcionamos metadatos valiosos, como la presencia de marcas de agua y puntuaciones estéticas, que ayudan en el filtrado adicional del conjunto de datos. Esperamos que PixelProse sea un recurso valioso para futuras investigaciones en visión y lenguaje. PixelProse está disponible en https://huggingface.co/datasets/tomg-group-umd/pixelprose.
English
Training large vision-language models requires extensive, high-quality image-text pairs. Existing web-scraped datasets, however, are noisy and lack detailed image descriptions. To bridge this gap, we introduce PixelProse, a comprehensive dataset of over 16M (million) synthetically generated captions, leveraging cutting-edge vision-language models for detailed and accurate descriptions. To ensure data integrity, we rigorously analyze our dataset for problematic content, including child sexual abuse material (CSAM), personally identifiable information (PII), and toxicity. We also provide valuable metadata such as watermark presence and aesthetic scores, aiding in further dataset filtering. We hope PixelProse will be a valuable resource for future vision-language research. PixelProse is available at https://huggingface.co/datasets/tomg-group-umd/pixelprose

Summary

AI-Generated Summary

PDF182December 6, 2024