ChatPaper.aiChatPaper

2,5 Jahre in der Klasse: Ein multimodales Lehrbuch für die Vorabtrainierung von Sehen-Sprache.

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

January 1, 2025
Autoren: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
cs.AI

Zusammenfassung

Im Vergleich zu Bilddaten-Text-Paar-Daten ermöglichen durchmischte Korpora Vision-Language-Modelle (VLMs), die Welt natürlicher wie Menschen zu verstehen. Allerdings werden solche existierenden Datensätze von Webseiten gecrawlt und stehen vor Herausforderungen wie geringer Wissensdichte, lockeren Beziehungen zwischen Bildern und Texten sowie schlechter logischer Kohärenz zwischen Bildern. Andererseits beherbergt das Internet umfangreiche Lehrvideos (z. B. Online-Geometriekurse), die von Menschen weit verbreitet genutzt werden, um grundlegende Themen zu lernen. Dennoch bleiben diese wertvollen Ressourcen im VLM-Training untererforscht. In diesem Paper stellen wir einen hochwertigen multimodalen Lehrbuchkorpus mit reichhaltigerer Grundlagenkenntnis für VLM-Vorabtraining vor. Er sammelt über 2,5 Jahre hinweg Lehrvideos mit insgesamt 22.000 Unterrichtsstunden. Zunächst verwenden wir eine von LLM vorgeschlagene Taxonomie, um systematisch Lehrvideos zu sammeln. Dann extrahieren und verfeinern wir schrittweise visuelles (Keyframes), audio (ASR) und textuelles Wissen (OCR) aus den Videos und organisieren es als durchmischten Bild-Text-Korpus basierend auf zeitlicher Reihenfolge. Im Vergleich zu seinen Gegenstücken bietet unser videozentriertes Lehrbuch einen kohärenteren Kontext, reichhaltigeres Wissen und eine bessere Bild-Text-Ausrichtung. Experimente zeigen seine hervorragende Vorabtrainingsleistung, insbesondere bei wissens- und logikintensiven Aufgaben wie ScienceQA und MathVista. Darüber hinaus zeigen VLMs, die auf unserem Lehrbuch vorab trainiert wurden, eine herausragende Bewusstheit für durchmischten Kontext, indem sie visuelle und textuelle Hinweise in ihrem Few-Shot-Kontext zur Aufgabenlösung nutzen. Unser Code ist verfügbar unter \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
English
Compared to image-text pair data, interleaved corpora enable Vision-Language Models (VLMs) to understand the world more naturally like humans. However, such existing datasets are crawled from webpage, facing challenges like low knowledge density, loose image-text relations, and poor logical coherence between images. On the other hand, the internet hosts vast instructional videos (e.g., online geometry courses) that are widely used by humans to learn foundational subjects, yet these valuable resources remain underexplored in VLM training. In this paper, we introduce a high-quality multimodal textbook corpus with richer foundational knowledge for VLM pretraining. It collects over 2.5 years of instructional videos, totaling 22,000 class hours. We first use an LLM-proposed taxonomy to systematically gather instructional videos. Then we progressively extract and refine visual (keyframes), audio (ASR), and textual knowledge (OCR) from the videos, and organize as an image-text interleaved corpus based on temporal order. Compared to its counterparts, our video-centric textbook offers more coherent context, richer knowledge, and better image-text alignment. Experiments demonstrate its superb pretraining performance, particularly in knowledge- and reasoning-intensive tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook exhibit outstanding interleaved context awareness, leveraging visual and textual cues in their few-shot context for task solving~Our code are available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.

Summary

AI-Generated Summary

PDF1077January 3, 2025