Des pixels à la prose : Un vaste ensemble de données de descriptions denses d'images
From Pixels to Prose: A Large Dataset of Dense Image Captions
June 14, 2024
Auteurs: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI
Résumé
L'entraînement de grands modèles vision-langage nécessite des paires image-texte étendues et de haute qualité. Cependant, les ensembles de données existants, extraits du web, sont bruyants et manquent de descriptions d'images détaillées. Pour combler cette lacune, nous présentons PixelProse, un ensemble de données complet de plus de 16 millions de légendes générées de manière synthétique, exploitant des modèles vision-langage de pointe pour des descriptions détaillées et précises. Pour garantir l'intégrité des données, nous analysons rigoureusement notre ensemble de données pour détecter les contenus problématiques, y compris les matériaux d'abus sexuel sur mineurs (CSAM), les informations personnellement identifiables (PII) et la toxicité. Nous fournissons également des métadonnées précieuses telles que la présence de filigranes et les scores esthétiques, facilitant un filtrage supplémentaire de l'ensemble de données. Nous espérons que PixelProse sera une ressource précieuse pour les futures recherches en vision-langage. PixelProse est disponible à l'adresse suivante : https://huggingface.co/datasets/tomg-group-umd/pixelprose.
English
Training large vision-language models requires extensive, high-quality
image-text pairs. Existing web-scraped datasets, however, are noisy and lack
detailed image descriptions. To bridge this gap, we introduce PixelProse, a
comprehensive dataset of over 16M (million) synthetically generated captions,
leveraging cutting-edge vision-language models for detailed and accurate
descriptions. To ensure data integrity, we rigorously analyze our dataset for
problematic content, including child sexual abuse material (CSAM), personally
identifiable information (PII), and toxicity. We also provide valuable metadata
such as watermark presence and aesthetic scores, aiding in further dataset
filtering. We hope PixelProse will be a valuable resource for future
vision-language research. PixelProse is available at
https://huggingface.co/datasets/tomg-group-umd/pixelproseSummary
AI-Generated Summary