2,5 années en classe : un manuel multimodal pour la pré-entraßnement Vision-Language2.5 Years in Class: A Multimodal Textbook for Vision-Language
Pretraining
Par rapport aux données d'images et de textes appariés, les corpus entrelacés permettent aux ModÚles Vision-Texte (VLM) de comprendre le monde de maniÚre plus naturelle, à l'instar des humains. Cependant, de tels ensembles de données existants sont collectés à partir de pages web, ce qui pose des défis tels qu'une faible densité de connaissances, des relations lùches entre l'image et le texte, et une faible cohérence logique entre les images. D'autre part, Internet héberge de vastes vidéos pédagogiques (par exemple, des cours de géométrie en ligne) largement utilisées par les humains pour apprendre des matiÚres fondamentales, pourtant ces ressources précieuses restent sous-exploitées dans la formation des VLM. Dans cet article, nous présentons un corpus multimodal de manuels scolaires de haute qualité offrant des connaissances fondamentales plus riches pour la préformation des VLM. Il rassemble plus de 2,5 années de vidéos pédagogiques, totalisant 22 000 heures de cours. Nous utilisons d'abord une taxonomie proposée par LLM pour rassembler systématiquement des vidéos pédagogiques. Ensuite, nous extrayons progressivement et affinons les connaissances visuelles (images clés), audio (ASR) et textuelles (OCR) des vidéos, et les organisons sous forme d'un corpus entrelacé image-texte basé sur l'ordre temporel. Comparé à ses homologues, notre manuel centré sur la vidéo offre un contexte plus cohérent, des connaissances plus riches et un meilleur alignement entre l'image et le texte. Les expériences démontrent ses performances de préformation exceptionnelles, notamment dans des tùches intensives en connaissances et raisonnement telles que ScienceQA et MathVista. De plus, les VLM pré-entraßnés sur notre manuel présentent une conscience contextuelle entrelacée exceptionnelle, exploitant des indices visuels et textuels dans leur contexte à quelques coups pour résoudre des tùches. Notre code est disponible sur \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.