ChatPaper.aiChatPaper

De Pixels à Prosa: Um Grande Conjunto de Dados de Descrições Densas de Imagens

From Pixels to Prose: A Large Dataset of Dense Image Captions

June 14, 2024
Autores: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI

Resumo

O treinamento de grandes modelos de visão e linguagem requer pares extensos e de alta qualidade de imagens e textos. No entanto, os conjuntos de dados existentes, extraídos da web, são ruidosos e carecem de descrições detalhadas das imagens. Para preencher essa lacuna, apresentamos o PixelProse, um conjunto de dados abrangente com mais de 16 milhões de legendas geradas sinteticamente, utilizando modelos de ponta de visão e linguagem para descrições detalhadas e precisas. Para garantir a integridade dos dados, analisamos rigorosamente nosso conjunto de dados em busca de conteúdo problemático, incluindo material de abuso sexual infantil (CSAM), informações pessoalmente identificáveis (PII) e toxicidade. Também fornecemos metadados valiosos, como a presença de marcas d'água e pontuações estéticas, auxiliando na filtragem adicional do conjunto de dados. Esperamos que o PixelProse seja um recurso valioso para futuras pesquisas em visão e linguagem. O PixelProse está disponível em https://huggingface.co/datasets/tomg-group-umd/pixelprose.
English
Training large vision-language models requires extensive, high-quality image-text pairs. Existing web-scraped datasets, however, are noisy and lack detailed image descriptions. To bridge this gap, we introduce PixelProse, a comprehensive dataset of over 16M (million) synthetically generated captions, leveraging cutting-edge vision-language models for detailed and accurate descriptions. To ensure data integrity, we rigorously analyze our dataset for problematic content, including child sexual abuse material (CSAM), personally identifiable information (PII), and toxicity. We also provide valuable metadata such as watermark presence and aesthetic scores, aiding in further dataset filtering. We hope PixelProse will be a valuable resource for future vision-language research. PixelProse is available at https://huggingface.co/datasets/tomg-group-umd/pixelprose
PDF182December 6, 2024