2.5 Años en Clase: Un Libro de Texto Multimodal para el Preentrenamiento Visión-Lenguaje

Resumen

En comparación con los datos de pares de imagen-texto, los corpus entrelazados permiten a los Modelos de Visión-Lenguaje (VLMs) comprender el mundo de manera más natural, como lo hacen los humanos. Sin embargo, estos conjuntos de datos existentes se obtienen de páginas web, enfrentando desafíos como baja densidad de conocimiento, relaciones laxas entre imagen y texto, y escasa coherencia lógica entre las imágenes. Por otro lado, internet alberga vastos videos instructivos (por ejemplo, cursos de geometría en línea) que son ampliamente utilizados por los humanos para aprender materias fundamentales, sin embargo, estos valiosos recursos siguen siendo poco explorados en el entrenamiento de VLMs. En este artículo, presentamos un corpus multimodal de libros de texto de alta calidad con un conocimiento fundamental más rico para el preentrenamiento de VLMs. Recopila más de 2.5 años de videos instructivos, con un total de 22,000 horas de clase. En primer lugar, utilizamos una taxonomía propuesta por LLM para recopilar sistemáticamente videos instructivos. Luego extraemos y refinamos progresivamente el conocimiento visual (fotogramas clave), auditivo (ASR) y textual (OCR) de los videos, y lo organizamos como un corpus entrelazado de imagen-texto basado en el orden temporal. En comparación con sus contrapartes, nuestro libro de texto centrado en videos ofrece un contexto más coherente, un conocimiento más rico y una mejor alineación entre imagen y texto. Los experimentos demuestran su excelente rendimiento en el preentrenamiento, especialmente en tareas intensivas en conocimiento y razonamiento como ScienceQA y MathVista. Además, los VLM preentrenados en nuestro libro de texto muestran una destacada conciencia de contexto entrelazado, aprovechando pistas visuales y textuales en su contexto de poca muestra para la resolución de tareas. Nuestro código está disponible en \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.

English

Compared to image-text pair data, interleaved corpora enable Vision-Language Models (VLMs) to understand the world more naturally like humans. However, such existing datasets are crawled from webpage, facing challenges like low knowledge density, loose image-text relations, and poor logical coherence between images. On the other hand, the internet hosts vast instructional videos (e.g., online geometry courses) that are widely used by humans to learn foundational subjects, yet these valuable resources remain underexplored in VLM training. In this paper, we introduce a high-quality multimodal textbook corpus with richer foundational knowledge for VLM pretraining. It collects over 2.5 years of instructional videos, totaling 22,000 class hours. We first use an LLM-proposed taxonomy to systematically gather instructional videos. Then we progressively extract and refine visual (keyframes), audio (ASR), and textual knowledge (OCR) from the videos, and organize as an image-text interleaved corpus based on temporal order. Compared to its counterparts, our video-centric textbook offers more coherent context, richer knowledge, and better image-text alignment. Experiments demonstrate its superb pretraining performance, particularly in knowledge- and reasoning-intensive tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook exhibit outstanding interleaved context awareness, leveraging visual and textual cues in their few-shot context for task solving~Our code are available at \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.

2.5 Años en Clase: Un Libro de Texto Multimodal para el Preentrenamiento Visión-Lenguaje

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Resumen

Support