Modelo Mundial en Video y Lenguaje de Millones de Longitudes con RingAttention

Resumen

Los modelos de lenguaje actuales tienen limitaciones para comprender aspectos del mundo que no se describen fácilmente con palabras y enfrentan dificultades con tareas complejas y de larga duración. Las secuencias de video ofrecen valiosa información temporal ausente en el lenguaje y las imágenes estáticas, lo que las hace atractivas para el modelado conjunto con el lenguaje. Dichos modelos podrían desarrollar una comprensión tanto del conocimiento textual humano como del mundo físico, permitiendo capacidades más amplias de IA para asistir a los humanos. Sin embargo, aprender a partir de millones de tokens de secuencias de video y lenguaje presenta desafíos debido a limitaciones de memoria, complejidad computacional y conjuntos de datos limitados. Para abordar estos desafíos, hemos creado un gran conjunto de datos de videos y libros diversos, utilizamos la técnica RingAttention para entrenar de manera escalable en secuencias largas, y aumentamos gradualmente el tamaño del contexto de 4K a 1M tokens. Este artículo realiza las siguientes contribuciones: (a) Red neuronal con el mayor tamaño de contexto: Entrenamos uno de los transformadores con el mayor tamaño de contexto en secuencias largas de video y lenguaje, estableciendo nuevos referentes en tareas difíciles de recuperación y comprensión de videos largos. (b) Soluciones para superar los desafíos del entrenamiento visión-lenguaje, incluyendo el uso de empaquetado de secuencias enmascaradas para mezclar diferentes longitudes de secuencia, ponderación de pérdidas para equilibrar lenguaje y visión, y un conjunto de datos de preguntas y respuestas generado por el modelo para chats de secuencias largas. (c) Una implementación altamente optimizada con RingAttention, empaquetado de secuencias enmascaradas y otras características clave para entrenar en secuencias multimodales de millones de tokens. (d) Liberación completa de una familia de modelos de 7B parámetros capaces de procesar documentos de texto largos (LWM-Text, LWM-Text-Chat) y videos (LWM, LWM-Chat) de más de 1M tokens. Este trabajo allana el camino para entrenar en conjuntos de datos masivos de video y lenguaje largos, desarrollando una comprensión tanto del conocimiento humano como del mundo multimodal, y capacidades más amplias.

English

Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop a understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

Modelo Mundial en Video y Lenguaje de Millones de Longitudes con RingAttention

World Model on Million-Length Video And Language With RingAttention

Resumen

Support