2,5 Jaar in de Klas: Een Multimodaal Leerboek voor Visie-Taal Voorafgaande Training
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
January 1, 2025
Auteurs: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
cs.AI
Samenvatting
In vergelijking met beeld-tekst-paar data stellen geïnterlinieerde corpora Vision-Language Modellen (VLM's) in staat om de wereld op een meer natuurlijke manier te begrijpen, zoals mensen dat doen. Echter, bestaande datasets worden verzameld van webpagina's en staan voor uitdagingen zoals een lage kennisdichtheid, losse beeld-tekst relaties en een zwakke logische samenhang tussen afbeeldingen. Aan de andere kant herbergt het internet uitgebreide instructievideo's (bijv. online meetkundecursussen) die veelvuldig worden gebruikt door mensen om basisvakken te leren, maar deze waardevolle bronnen blijven onderbenut in VLM-training. In dit artikel introduceren we een hoogwaardig multimodaal tekstboekencorpus met rijkere basisinformatie voor VLM-vooraftraining. Het verzamelt meer dan 2,5 jaar aan instructievideo's, met in totaal 22.000 lesuren. We gebruiken eerst een door LLM voorgestelde taxonomie om systematisch instructievideo's te verzamelen. Vervolgens extraheren en verfijnen we progressief visuele (sleutelframes), audio (ASR) en tekstuele kennis (OCR) uit de video's, en organiseren deze als een geïnterlinieerd beeld-tekstcorpus op basis van temporele volgorde. In vergelijking met zijn tegenhangers biedt ons video-gecentreerde tekstboek meer coherente context, rijkere kennis en betere afstemming tussen beeld en tekst. Experimenten tonen zijn uitstekende vooraftrainingsprestaties aan, met name in kennis- en redeneringsintensieve taken zoals ScienceQA en MathVista. Bovendien vertonen VLM's die vooraf zijn getraind op ons tekstboek een uitstekend bewustzijn van geïnterlinieerde context, waarbij ze visuele en tekstuele aanwijzingen benutten in hun context met weinig gegevens voor taakoplossing. Onze code is beschikbaar op \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
English
Compared to image-text pair data, interleaved corpora enable Vision-Language
Models (VLMs) to understand the world more naturally like humans. However, such
existing datasets are crawled from webpage, facing challenges like low
knowledge density, loose image-text relations, and poor logical coherence
between images. On the other hand, the internet hosts vast instructional videos
(e.g., online geometry courses) that are widely used by humans to learn
foundational subjects, yet these valuable resources remain underexplored in VLM
training. In this paper, we introduce a high-quality multimodal
textbook corpus with richer foundational knowledge for VLM pretraining. It
collects over 2.5 years of instructional videos, totaling 22,000 class hours.
We first use an LLM-proposed taxonomy to systematically gather instructional
videos. Then we progressively extract and refine visual (keyframes), audio
(ASR), and textual knowledge (OCR) from the videos, and organize as an
image-text interleaved corpus based on temporal order. Compared to its
counterparts, our video-centric textbook offers more coherent context, richer
knowledge, and better image-text alignment. Experiments demonstrate its superb
pretraining performance, particularly in knowledge- and reasoning-intensive
tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook
exhibit outstanding interleaved context awareness, leveraging visual and
textual cues in their few-shot context for task solving~Our code are
available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.Summary
AI-Generated Summary