От пикселей к тексту: большой набор данных плотных описаний изображений.
From Pixels to Prose: A Large Dataset of Dense Image Captions
June 14, 2024
Авторы: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI
Аннотация
Для обучения больших моделей видео-языка требуется обширный набор изображений и текстов высокого качества. Однако существующие наборы данных, собранные из сети, зачастую содержат шум и не имеют подробных описаний изображений. Для заполнения этого пробела мы представляем PixelProse - обширный набор данных из более чем 16 млн (миллионов) синтетически сгенерированных подписей, использующий передовые модели видео-языка для подробных и точных описаний. Для обеспечения целостности данных мы тщательно анализируем наш набор данных на наличие проблемного контента, включая материалы сексуального насилия над детьми (CSAM), личную идентифицируемую информацию (PII) и токсичность. Мы также предоставляем ценные метаданные, такие как наличие водяных знаков и оценки эстетики, что помогает дополнительно фильтровать набор данных. Мы надеемся, что PixelProse станет ценным ресурсом для будущих исследований в области видео-языка. PixelProse доступен по ссылке https://huggingface.co/datasets/tomg-group-umd/pixelprose
English
Training large vision-language models requires extensive, high-quality
image-text pairs. Existing web-scraped datasets, however, are noisy and lack
detailed image descriptions. To bridge this gap, we introduce PixelProse, a
comprehensive dataset of over 16M (million) synthetically generated captions,
leveraging cutting-edge vision-language models for detailed and accurate
descriptions. To ensure data integrity, we rigorously analyze our dataset for
problematic content, including child sexual abuse material (CSAM), personally
identifiable information (PII), and toxicity. We also provide valuable metadata
such as watermark presence and aesthetic scores, aiding in further dataset
filtering. We hope PixelProse will be a valuable resource for future
vision-language research. PixelProse is available at
https://huggingface.co/datasets/tomg-group-umd/pixelproseSummary
AI-Generated Summary