ChatPaper.aiChatPaper

2.5 года в классе: мультимодальный учебник для предварительного обучения видео-языковому взаимодействию

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

January 1, 2025
Авторы: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
cs.AI

Аннотация

В сравнении с данными пар изображение-текст, переплетенные корпуса позволяют моделям видео-языка (VLM) понимать мир более естественно, как люди. Однако такие существующие наборы данных извлекаются из веб-страниц, сталкиваясь с проблемами, такими как низкая плотность знаний, слабые связи между изображениями и текстом, а также плохая логическая связность между изображениями. С другой стороны, в интернете существует огромное количество обучающих видеороликов (например, онлайн-курсы по геометрии), которые широко используются людьми для изучения фундаментальных предметов, однако эти ценные ресурсы остаются недостаточно исследованными в области предварительного обучения VLM. В данной статье мы представляем высококачественный мультимодальный учебный корпус с более богатыми фундаментальными знаниями для предварительного обучения VLM. Он собирает более 2,5 лет обучающих видеороликов, общей продолжительностью 22 000 часов. Сначала мы используем таксономию, предложенную LLM, для систематического сбора обучающих видеороликов. Затем мы поэтапно извлекаем и уточняем визуальные (ключевые кадры), аудио (ASR) и текстовые знания (OCR) из видеороликов, и организуем их как переплетенный корпус изображений и текста на основе временного порядка. По сравнению с аналогами, наш учебник, сосредоточенный на видео, предлагает более последовательный контекст, более богатые знания и лучшее соответствие изображения-текст. Эксперименты демонстрируют его превосходную производительность в предварительном обучении, особенно в задачах, требующих знаний и рассуждений, таких как ScienceQA и MathVista. Более того, модели VLM, предварительно обученные на нашем учебнике, проявляют выдающееся осознание переплетенного контекста, используя визуальные и текстовые подсказки в своем контексте с небольшим количеством примеров для решения задач. Наш код доступен по ссылке: \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
English
Compared to image-text pair data, interleaved corpora enable Vision-Language Models (VLMs) to understand the world more naturally like humans. However, such existing datasets are crawled from webpage, facing challenges like low knowledge density, loose image-text relations, and poor logical coherence between images. On the other hand, the internet hosts vast instructional videos (e.g., online geometry courses) that are widely used by humans to learn foundational subjects, yet these valuable resources remain underexplored in VLM training. In this paper, we introduce a high-quality multimodal textbook corpus with richer foundational knowledge for VLM pretraining. It collects over 2.5 years of instructional videos, totaling 22,000 class hours. We first use an LLM-proposed taxonomy to systematically gather instructional videos. Then we progressively extract and refine visual (keyframes), audio (ASR), and textual knowledge (OCR) from the videos, and organize as an image-text interleaved corpus based on temporal order. Compared to its counterparts, our video-centric textbook offers more coherent context, richer knowledge, and better image-text alignment. Experiments demonstrate its superb pretraining performance, particularly in knowledge- and reasoning-intensive tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook exhibit outstanding interleaved context awareness, leveraging visual and textual cues in their few-shot context for task solving~Our code are available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.

Summary

AI-Generated Summary

PDF1077January 3, 2025