2,5 Jahre in der Klasse: Ein multimodales Lehrbuch für die Vorabtrainierung von Sehen-Sprache.
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
January 1, 2025
Autoren: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
cs.AI
Zusammenfassung
Im Vergleich zu Bilddaten-Text-Paar-Daten ermöglichen durchmischte Korpora Vision-Language-Modelle (VLMs), die Welt natürlicher wie Menschen zu verstehen. Allerdings werden solche existierenden Datensätze von Webseiten gecrawlt und stehen vor Herausforderungen wie geringer Wissensdichte, lockeren Beziehungen zwischen Bildern und Texten sowie schlechter logischer Kohärenz zwischen Bildern. Andererseits beherbergt das Internet umfangreiche Lehrvideos (z. B. Online-Geometriekurse), die von Menschen weit verbreitet genutzt werden, um grundlegende Themen zu lernen. Dennoch bleiben diese wertvollen Ressourcen im VLM-Training untererforscht. In diesem Paper stellen wir einen hochwertigen multimodalen Lehrbuchkorpus mit reichhaltigerer Grundlagenkenntnis für VLM-Vorabtraining vor. Er sammelt über 2,5 Jahre hinweg Lehrvideos mit insgesamt 22.000 Unterrichtsstunden. Zunächst verwenden wir eine von LLM vorgeschlagene Taxonomie, um systematisch Lehrvideos zu sammeln. Dann extrahieren und verfeinern wir schrittweise visuelles (Keyframes), audio (ASR) und textuelles Wissen (OCR) aus den Videos und organisieren es als durchmischten Bild-Text-Korpus basierend auf zeitlicher Reihenfolge. Im Vergleich zu seinen Gegenstücken bietet unser videozentriertes Lehrbuch einen kohärenteren Kontext, reichhaltigeres Wissen und eine bessere Bild-Text-Ausrichtung. Experimente zeigen seine hervorragende Vorabtrainingsleistung, insbesondere bei wissens- und logikintensiven Aufgaben wie ScienceQA und MathVista. Darüber hinaus zeigen VLMs, die auf unserem Lehrbuch vorab trainiert wurden, eine herausragende Bewusstheit für durchmischten Kontext, indem sie visuelle und textuelle Hinweise in ihrem Few-Shot-Kontext zur Aufgabenlösung nutzen. Unser Code ist verfügbar unter \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
English
Compared to image-text pair data, interleaved corpora enable Vision-Language
Models (VLMs) to understand the world more naturally like humans. However, such
existing datasets are crawled from webpage, facing challenges like low
knowledge density, loose image-text relations, and poor logical coherence
between images. On the other hand, the internet hosts vast instructional videos
(e.g., online geometry courses) that are widely used by humans to learn
foundational subjects, yet these valuable resources remain underexplored in VLM
training. In this paper, we introduce a high-quality multimodal
textbook corpus with richer foundational knowledge for VLM pretraining. It
collects over 2.5 years of instructional videos, totaling 22,000 class hours.
We first use an LLM-proposed taxonomy to systematically gather instructional
videos. Then we progressively extract and refine visual (keyframes), audio
(ASR), and textual knowledge (OCR) from the videos, and organize as an
image-text interleaved corpus based on temporal order. Compared to its
counterparts, our video-centric textbook offers more coherent context, richer
knowledge, and better image-text alignment. Experiments demonstrate its superb
pretraining performance, particularly in knowledge- and reasoning-intensive
tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook
exhibit outstanding interleaved context awareness, leveraging visual and
textual cues in their few-shot context for task solving~Our code are
available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.Summary
AI-Generated Summary