ChatPaper.aiChatPaper

Des pixels à la prose : Un vaste ensemble de données de descriptions denses d'images

From Pixels to Prose: A Large Dataset of Dense Image Captions

June 14, 2024
Auteurs: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI

Résumé

L'entraînement de grands modèles vision-langage nécessite des paires image-texte étendues et de haute qualité. Cependant, les ensembles de données existants, extraits du web, sont bruyants et manquent de descriptions d'images détaillées. Pour combler cette lacune, nous présentons PixelProse, un ensemble de données complet de plus de 16 millions de légendes générées de manière synthétique, exploitant des modèles vision-langage de pointe pour des descriptions détaillées et précises. Pour garantir l'intégrité des données, nous analysons rigoureusement notre ensemble de données pour détecter les contenus problématiques, y compris les matériaux d'abus sexuel sur mineurs (CSAM), les informations personnellement identifiables (PII) et la toxicité. Nous fournissons également des métadonnées précieuses telles que la présence de filigranes et les scores esthétiques, facilitant un filtrage supplémentaire de l'ensemble de données. Nous espérons que PixelProse sera une ressource précieuse pour les futures recherches en vision-langage. PixelProse est disponible à l'adresse suivante : https://huggingface.co/datasets/tomg-group-umd/pixelprose.
English
Training large vision-language models requires extensive, high-quality image-text pairs. Existing web-scraped datasets, however, are noisy and lack detailed image descriptions. To bridge this gap, we introduce PixelProse, a comprehensive dataset of over 16M (million) synthetically generated captions, leveraging cutting-edge vision-language models for detailed and accurate descriptions. To ensure data integrity, we rigorously analyze our dataset for problematic content, including child sexual abuse material (CSAM), personally identifiable information (PII), and toxicity. We also provide valuable metadata such as watermark presence and aesthetic scores, aiding in further dataset filtering. We hope PixelProse will be a valuable resource for future vision-language research. PixelProse is available at https://huggingface.co/datasets/tomg-group-umd/pixelprose

Summary

AI-Generated Summary

PDF182December 6, 2024