2,5 Jahre in der Klasse: Ein multimodales Lehrbuch für die Vorabtrainierung von Sehen-Sprache.2.5 Years in Class: A Multimodal Textbook for Vision-Language
Pretraining
Im Vergleich zu Bilddaten-Text-Paar-Daten ermöglichen durchmischte Korpora Vision-Language-Modelle (VLMs), die Welt natürlicher wie Menschen zu verstehen. Allerdings werden solche existierenden Datensätze von Webseiten gecrawlt und stehen vor Herausforderungen wie geringer Wissensdichte, lockeren Beziehungen zwischen Bildern und Texten sowie schlechter logischer Kohärenz zwischen Bildern. Andererseits beherbergt das Internet umfangreiche Lehrvideos (z. B. Online-Geometriekurse), die von Menschen weit verbreitet genutzt werden, um grundlegende Themen zu lernen. Dennoch bleiben diese wertvollen Ressourcen im VLM-Training untererforscht. In diesem Paper stellen wir einen hochwertigen multimodalen Lehrbuchkorpus mit reichhaltigerer Grundlagenkenntnis für VLM-Vorabtraining vor. Er sammelt über 2,5 Jahre hinweg Lehrvideos mit insgesamt 22.000 Unterrichtsstunden. Zunächst verwenden wir eine von LLM vorgeschlagene Taxonomie, um systematisch Lehrvideos zu sammeln. Dann extrahieren und verfeinern wir schrittweise visuelles (Keyframes), audio (ASR) und textuelles Wissen (OCR) aus den Videos und organisieren es als durchmischten Bild-Text-Korpus basierend auf zeitlicher Reihenfolge. Im Vergleich zu seinen Gegenstücken bietet unser videozentriertes Lehrbuch einen kohärenteren Kontext, reichhaltigeres Wissen und eine bessere Bild-Text-Ausrichtung. Experimente zeigen seine hervorragende Vorabtrainingsleistung, insbesondere bei wissens- und logikintensiven Aufgaben wie ScienceQA und MathVista. Darüber hinaus zeigen VLMs, die auf unserem Lehrbuch vorab trainiert wurden, eine herausragende Bewusstheit für durchmischten Kontext, indem sie visuelle und textuelle Hinweise in ihrem Few-Shot-Kontext zur Aufgabenlösung nutzen. Unser Code ist verfügbar unter \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.