2.5 Años en Clase: Un Libro de Texto Multimodal para el Preentrenamiento Visión-Lenguaje2.5 Years in Class: A Multimodal Textbook for Vision-Language
Pretraining
En comparación con los datos de pares de imagen-texto, los corpus entrelazados permiten a los Modelos de Visión-Lenguaje (VLMs) comprender el mundo de manera más natural, como lo hacen los humanos. Sin embargo, estos conjuntos de datos existentes se obtienen de páginas web, enfrentando desafíos como baja densidad de conocimiento, relaciones laxas entre imagen y texto, y escasa coherencia lógica entre las imágenes. Por otro lado, internet alberga vastos videos instructivos (por ejemplo, cursos de geometría en línea) que son ampliamente utilizados por los humanos para aprender materias fundamentales, sin embargo, estos valiosos recursos siguen siendo poco explorados en el entrenamiento de VLMs. En este artículo, presentamos un corpus multimodal de libros de texto de alta calidad con un conocimiento fundamental más rico para el preentrenamiento de VLMs. Recopila más de 2.5 años de videos instructivos, con un total de 22,000 horas de clase. En primer lugar, utilizamos una taxonomía propuesta por LLM para recopilar sistemáticamente videos instructivos. Luego extraemos y refinamos progresivamente el conocimiento visual (fotogramas clave), auditivo (ASR) y textual (OCR) de los videos, y lo organizamos como un corpus entrelazado de imagen-texto basado en el orden temporal. En comparación con sus contrapartes, nuestro libro de texto centrado en videos ofrece un contexto más coherente, un conocimiento más rico y una mejor alineación entre imagen y texto. Los experimentos demuestran su excelente rendimiento en el preentrenamiento, especialmente en tareas intensivas en conocimiento y razonamiento como ScienceQA y MathVista. Además, los VLM preentrenados en nuestro libro de texto muestran una destacada conciencia de contexto entrelazado, aprovechando pistas visuales y textuales en su contexto de poca muestra para la resolución de tareas. Nuestro código está disponible en \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.