2.5 Años en Clase: Un Libro de Texto Multimodal para el Preentrenamiento Visión-Lenguaje
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
January 1, 2025
Autores: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
cs.AI
Resumen
En comparación con los datos de pares de imagen-texto, los corpus entrelazados permiten a los Modelos de Visión-Lenguaje (VLMs) comprender el mundo de manera más natural, como lo hacen los humanos. Sin embargo, estos conjuntos de datos existentes se obtienen de páginas web, enfrentando desafíos como baja densidad de conocimiento, relaciones laxas entre imagen y texto, y escasa coherencia lógica entre las imágenes. Por otro lado, internet alberga vastos videos instructivos (por ejemplo, cursos de geometría en línea) que son ampliamente utilizados por los humanos para aprender materias fundamentales, sin embargo, estos valiosos recursos siguen siendo poco explorados en el entrenamiento de VLMs. En este artículo, presentamos un corpus multimodal de libros de texto de alta calidad con un conocimiento fundamental más rico para el preentrenamiento de VLMs. Recopila más de 2.5 años de videos instructivos, con un total de 22,000 horas de clase. En primer lugar, utilizamos una taxonomía propuesta por LLM para recopilar sistemáticamente videos instructivos. Luego extraemos y refinamos progresivamente el conocimiento visual (fotogramas clave), auditivo (ASR) y textual (OCR) de los videos, y lo organizamos como un corpus entrelazado de imagen-texto basado en el orden temporal. En comparación con sus contrapartes, nuestro libro de texto centrado en videos ofrece un contexto más coherente, un conocimiento más rico y una mejor alineación entre imagen y texto. Los experimentos demuestran su excelente rendimiento en el preentrenamiento, especialmente en tareas intensivas en conocimiento y razonamiento como ScienceQA y MathVista. Además, los VLM preentrenados en nuestro libro de texto muestran una destacada conciencia de contexto entrelazado, aprovechando pistas visuales y textuales en su contexto de poca muestra para la resolución de tareas. Nuestro código está disponible en \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
English
Compared to image-text pair data, interleaved corpora enable Vision-Language
Models (VLMs) to understand the world more naturally like humans. However, such
existing datasets are crawled from webpage, facing challenges like low
knowledge density, loose image-text relations, and poor logical coherence
between images. On the other hand, the internet hosts vast instructional videos
(e.g., online geometry courses) that are widely used by humans to learn
foundational subjects, yet these valuable resources remain underexplored in VLM
training. In this paper, we introduce a high-quality multimodal
textbook corpus with richer foundational knowledge for VLM pretraining. It
collects over 2.5 years of instructional videos, totaling 22,000 class hours.
We first use an LLM-proposed taxonomy to systematically gather instructional
videos. Then we progressively extract and refine visual (keyframes), audio
(ASR), and textual knowledge (OCR) from the videos, and organize as an
image-text interleaved corpus based on temporal order. Compared to its
counterparts, our video-centric textbook offers more coherent context, richer
knowledge, and better image-text alignment. Experiments demonstrate its superb
pretraining performance, particularly in knowledge- and reasoning-intensive
tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook
exhibit outstanding interleaved context awareness, leveraging visual and
textual cues in their few-shot context for task solving~Our code are
available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.Summary
AI-Generated Summary