Von Pixeln zu Text: Ein großes Datenset dichter Bildunterschriften
From Pixels to Prose: A Large Dataset of Dense Image Captions
June 14, 2024
Autoren: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI
Zusammenfassung
Das Training großer Vision-Language-Modelle erfordert umfangreiche, hochwertige Bild-Text-Paare. Bestehende web-gescrapte Datensätze sind jedoch fehlerhaft und weisen keine detaillierten Bildbeschreibungen auf. Um diese Lücke zu schließen, stellen wir PixelProse vor, einen umfassenden Datensatz von über 16 Millionen synthetisch generierten Bildunterschriften, der modernste Vision-Language-Modelle für detaillierte und präzise Beschreibungen nutzt. Um die Datenintegrität sicherzustellen, analysieren wir unseren Datensatz sorgfältig auf problematische Inhalte, einschließlich Material zu sexuellem Missbrauch von Kindern (CSAM), persönlich identifizierbaren Informationen (PII) und Toxizität. Wir bieten auch wertvolle Metadaten wie das Vorhandensein von Wasserzeichen und ästhetische Bewertungen, die bei der weiteren Datensatzfilterung helfen. Wir hoffen, dass PixelProse eine wertvolle Ressource für zukünftige Vision-Language-Forschung sein wird. PixelProse ist verfügbar unter https://huggingface.co/datasets/tomg-group-umd/pixelprose
English
Training large vision-language models requires extensive, high-quality
image-text pairs. Existing web-scraped datasets, however, are noisy and lack
detailed image descriptions. To bridge this gap, we introduce PixelProse, a
comprehensive dataset of over 16M (million) synthetically generated captions,
leveraging cutting-edge vision-language models for detailed and accurate
descriptions. To ensure data integrity, we rigorously analyze our dataset for
problematic content, including child sexual abuse material (CSAM), personally
identifiable information (PII), and toxicity. We also provide valuable metadata
such as watermark presence and aesthetic scores, aiding in further dataset
filtering. We hope PixelProse will be a valuable resource for future
vision-language research. PixelProse is available at
https://huggingface.co/datasets/tomg-group-umd/pixelproseSummary
AI-Generated Summary