2,5 années en classe : un manuel multimodal pour la pré-entraînement Vision-Language
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
January 1, 2025
Auteurs: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
cs.AI
Résumé
Par rapport aux données d'images et de textes appariés, les corpus entrelacés permettent aux Modèles Vision-Texte (VLM) de comprendre le monde de manière plus naturelle, à l'instar des humains. Cependant, de tels ensembles de données existants sont collectés à partir de pages web, ce qui pose des défis tels qu'une faible densité de connaissances, des relations lâches entre l'image et le texte, et une faible cohérence logique entre les images. D'autre part, Internet héberge de vastes vidéos pédagogiques (par exemple, des cours de géométrie en ligne) largement utilisées par les humains pour apprendre des matières fondamentales, pourtant ces ressources précieuses restent sous-exploitées dans la formation des VLM. Dans cet article, nous présentons un corpus multimodal de manuels scolaires de haute qualité offrant des connaissances fondamentales plus riches pour la préformation des VLM. Il rassemble plus de 2,5 années de vidéos pédagogiques, totalisant 22 000 heures de cours. Nous utilisons d'abord une taxonomie proposée par LLM pour rassembler systématiquement des vidéos pédagogiques. Ensuite, nous extrayons progressivement et affinons les connaissances visuelles (images clés), audio (ASR) et textuelles (OCR) des vidéos, et les organisons sous forme d'un corpus entrelacé image-texte basé sur l'ordre temporel. Comparé à ses homologues, notre manuel centré sur la vidéo offre un contexte plus cohérent, des connaissances plus riches et un meilleur alignement entre l'image et le texte. Les expériences démontrent ses performances de préformation exceptionnelles, notamment dans des tâches intensives en connaissances et raisonnement telles que ScienceQA et MathVista. De plus, les VLM pré-entraînés sur notre manuel présentent une conscience contextuelle entrelacée exceptionnelle, exploitant des indices visuels et textuels dans leur contexte à quelques coups pour résoudre des tâches. Notre code est disponible sur \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
English
Compared to image-text pair data, interleaved corpora enable Vision-Language
Models (VLMs) to understand the world more naturally like humans. However, such
existing datasets are crawled from webpage, facing challenges like low
knowledge density, loose image-text relations, and poor logical coherence
between images. On the other hand, the internet hosts vast instructional videos
(e.g., online geometry courses) that are widely used by humans to learn
foundational subjects, yet these valuable resources remain underexplored in VLM
training. In this paper, we introduce a high-quality multimodal
textbook corpus with richer foundational knowledge for VLM pretraining. It
collects over 2.5 years of instructional videos, totaling 22,000 class hours.
We first use an LLM-proposed taxonomy to systematically gather instructional
videos. Then we progressively extract and refine visual (keyframes), audio
(ASR), and textual knowledge (OCR) from the videos, and organize as an
image-text interleaved corpus based on temporal order. Compared to its
counterparts, our video-centric textbook offers more coherent context, richer
knowledge, and better image-text alignment. Experiments demonstrate its superb
pretraining performance, particularly in knowledge- and reasoning-intensive
tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook
exhibit outstanding interleaved context awareness, leveraging visual and
textual cues in their few-shot context for task solving~Our code are
available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.Summary
AI-Generated Summary