ピクセルから散文へ:高密度画像キャプションの大規模データセット
From Pixels to Prose: A Large Dataset of Dense Image Captions
June 14, 2024
著者: Vasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein
cs.AI
要旨
大規模な視覚言語モデルのトレーニングには、大量の高品質な画像とテキストのペアが必要です。しかし、既存のウェブスクレイピングされたデータセットはノイズが多く、詳細な画像記述が不足しています。このギャップを埋めるため、我々はPixelProseを導入しました。これは1600万以上の合成生成されたキャプションからなる包括的なデータセットで、最先端の視覚言語モデルを活用して詳細かつ正確な記述を実現しています。データの整合性を確保するため、児童性的虐待素材(CSAM)、個人識別情報(PII)、有害性を含む問題のあるコンテンツを厳密に分析しました。さらに、透かしの有無や美的スコアなどの貴重なメタデータを提供し、データセットのさらなるフィルタリングを支援します。PixelProseが将来の視覚言語研究にとって貴重なリソースとなることを願っています。PixelProseはhttps://huggingface.co/datasets/tomg-group-umd/pixelproseで利用可能です。
English
Training large vision-language models requires extensive, high-quality
image-text pairs. Existing web-scraped datasets, however, are noisy and lack
detailed image descriptions. To bridge this gap, we introduce PixelProse, a
comprehensive dataset of over 16M (million) synthetically generated captions,
leveraging cutting-edge vision-language models for detailed and accurate
descriptions. To ensure data integrity, we rigorously analyze our dataset for
problematic content, including child sexual abuse material (CSAM), personally
identifiable information (PII), and toxicity. We also provide valuable metadata
such as watermark presence and aesthetic scores, aiding in further dataset
filtering. We hope PixelProse will be a valuable resource for future
vision-language research. PixelProse is available at
https://huggingface.co/datasets/tomg-group-umd/pixelproseSummary
AI-Generated Summary