ChatPaper.aiChatPaper

OBELICS: Открытый веб-масштабируемый фильтрованный набор данных из чередующихся документов с изображениями и текстом

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

June 21, 2023
Авторы: Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh
cs.AI

Аннотация

Крупные мультимодальные модели, обученные на естественных документах, где изображения и текст чередуются, превосходят модели, обученные на парах изображение-текст, на различных мультимодальных тестах. Однако наборы данных, используемые для обучения этих моделей, не были опубликованы, а процесс их сбора не был полностью описан. Мы представляем набор данных OBELICS — открытый, веб-масштабный фильтрованный набор данных чередующихся документов с изображениями и текстом, включающий 141 миллион веб-страниц, извлечённых из Common Crawl, 353 миллиона связанных изображений и 115 миллиардов текстовых токенов. Мы описываем процесс создания набора данных, представляем подробные правила фильтрации и проводим анализ его содержания. Чтобы продемонстрировать жизнеспособность OBELICS, мы обучаем модели для обработки изображений и текста с 9 и 80 миллиардами параметров, названные IDEFICS, и достигаем конкурентоспособных результатов на различных мультимодальных тестах. Мы публикуем наш набор данных, модели и код.
English
Large multimodal models trained on natural documents, which interleave images and text, outperform models trained on image-text pairs on various multimodal benchmarks. However, the datasets used to train these models have not been released, and the collection process has not been fully specified. We introduce the OBELICS dataset, an open web-scale filtered dataset of interleaved image-text documents comprising 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens. We describe the dataset creation process, present comprehensive filtering rules, and provide an analysis of the dataset's content. To show the viability of OBELICS, we train vision and language models of 9 and 80 billion parameters named IDEFICS, and obtain competitive performance on different multimodal benchmarks. We release our dataset, models and code.
PDF464December 15, 2024