2,5 années en classe : un manuel multimodal pour la pré-entraînement Vision-Language

papers.abstract

Par rapport aux données d'images et de textes appariés, les corpus entrelacés permettent aux Modèles Vision-Texte (VLM) de comprendre le monde de manière plus naturelle, à l'instar des humains. Cependant, de tels ensembles de données existants sont collectés à partir de pages web, ce qui pose des défis tels qu'une faible densité de connaissances, des relations lâches entre l'image et le texte, et une faible cohérence logique entre les images. D'autre part, Internet héberge de vastes vidéos pédagogiques (par exemple, des cours de géométrie en ligne) largement utilisées par les humains pour apprendre des matières fondamentales, pourtant ces ressources précieuses restent sous-exploitées dans la formation des VLM. Dans cet article, nous présentons un corpus multimodal de manuels scolaires de haute qualité offrant des connaissances fondamentales plus riches pour la préformation des VLM. Il rassemble plus de 2,5 années de vidéos pédagogiques, totalisant 22 000 heures de cours. Nous utilisons d'abord une taxonomie proposée par LLM pour rassembler systématiquement des vidéos pédagogiques. Ensuite, nous extrayons progressivement et affinons les connaissances visuelles (images clés), audio (ASR) et textuelles (OCR) des vidéos, et les organisons sous forme d'un corpus entrelacé image-texte basé sur l'ordre temporel. Comparé à ses homologues, notre manuel centré sur la vidéo offre un contexte plus cohérent, des connaissances plus riches et un meilleur alignement entre l'image et le texte. Les expériences démontrent ses performances de préformation exceptionnelles, notamment dans des tâches intensives en connaissances et raisonnement telles que ScienceQA et MathVista. De plus, les VLM pré-entraînés sur notre manuel présentent une conscience contextuelle entrelacée exceptionnelle, exploitant des indices visuels et textuels dans leur contexte à quelques coups pour résoudre des tâches. Notre code est disponible sur \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.

English

Compared to image-text pair data, interleaved corpora enable Vision-Language Models (VLMs) to understand the world more naturally like humans. However, such existing datasets are crawled from webpage, facing challenges like low knowledge density, loose image-text relations, and poor logical coherence between images. On the other hand, the internet hosts vast instructional videos (e.g., online geometry courses) that are widely used by humans to learn foundational subjects, yet these valuable resources remain underexplored in VLM training. In this paper, we introduce a high-quality multimodal textbook corpus with richer foundational knowledge for VLM pretraining. It collects over 2.5 years of instructional videos, totaling 22,000 class hours. We first use an LLM-proposed taxonomy to systematically gather instructional videos. Then we progressively extract and refine visual (keyframes), audio (ASR), and textual knowledge (OCR) from the videos, and organize as an image-text interleaved corpus based on temporal order. Compared to its counterparts, our video-centric textbook offers more coherent context, richer knowledge, and better image-text alignment. Experiments demonstrate its superb pretraining performance, particularly in knowledge- and reasoning-intensive tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook exhibit outstanding interleaved context awareness, leveraging visual and textual cues in their few-shot context for task solving~Our code are available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.

2,5 années en classe : un manuel multimodal pour la pré-entraînement Vision-Language

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

papers.abstract

Support