2,5 Jaar in de Klas: Een Multimodaal Leerboek voor Visie-Taal Voorafgaande Training2.5 Years in Class: A Multimodal Textbook for Vision-Language
Pretraining
In vergelijking met beeld-tekst-paar data stellen geïnterlinieerde corpora Vision-Language Modellen (VLM's) in staat om de wereld op een meer natuurlijke manier te begrijpen, zoals mensen dat doen. Echter, bestaande datasets worden verzameld van webpagina's en staan voor uitdagingen zoals een lage kennisdichtheid, losse beeld-tekst relaties en een zwakke logische samenhang tussen afbeeldingen. Aan de andere kant herbergt het internet uitgebreide instructievideo's (bijv. online meetkundecursussen) die veelvuldig worden gebruikt door mensen om basisvakken te leren, maar deze waardevolle bronnen blijven onderbenut in VLM-training. In dit artikel introduceren we een hoogwaardig multimodaal tekstboekencorpus met rijkere basisinformatie voor VLM-vooraftraining. Het verzamelt meer dan 2,5 jaar aan instructievideo's, met in totaal 22.000 lesuren. We gebruiken eerst een door LLM voorgestelde taxonomie om systematisch instructievideo's te verzamelen. Vervolgens extraheren en verfijnen we progressief visuele (sleutelframes), audio (ASR) en tekstuele kennis (OCR) uit de video's, en organiseren deze als een geïnterlinieerd beeld-tekstcorpus op basis van temporele volgorde. In vergelijking met zijn tegenhangers biedt ons video-gecentreerde tekstboek meer coherente context, rijkere kennis en betere afstemming tussen beeld en tekst. Experimenten tonen zijn uitstekende vooraftrainingsprestaties aan, met name in kennis- en redeneringsintensieve taken zoals ScienceQA en MathVista. Bovendien vertonen VLM's die vooraf zijn getraind op ons tekstboek een uitstekend bewustzijn van geïnterlinieerde context, waarbij ze visuele en tekstuele aanwijzingen benutten in hun context met weinig gegevens voor taakoplossing. Onze code is beschikbaar op \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.