Modelo Mundial en Video y Lenguaje de Millones de Longitudes con RingAttention
World Model on Million-Length Video And Language With RingAttention
February 13, 2024
Autores: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
cs.AI
Resumen
Los modelos de lenguaje actuales tienen limitaciones para comprender aspectos del mundo que no se describen fácilmente con palabras y enfrentan dificultades con tareas complejas y de larga duración. Las secuencias de video ofrecen valiosa información temporal ausente en el lenguaje y las imágenes estáticas, lo que las hace atractivas para el modelado conjunto con el lenguaje. Dichos modelos podrían desarrollar una comprensión tanto del conocimiento textual humano como del mundo físico, permitiendo capacidades más amplias de IA para asistir a los humanos. Sin embargo, aprender a partir de millones de tokens de secuencias de video y lenguaje presenta desafíos debido a limitaciones de memoria, complejidad computacional y conjuntos de datos limitados. Para abordar estos desafíos, hemos creado un gran conjunto de datos de videos y libros diversos, utilizamos la técnica RingAttention para entrenar de manera escalable en secuencias largas, y aumentamos gradualmente el tamaño del contexto de 4K a 1M tokens. Este artículo realiza las siguientes contribuciones: (a) Red neuronal con el mayor tamaño de contexto: Entrenamos uno de los transformadores con el mayor tamaño de contexto en secuencias largas de video y lenguaje, estableciendo nuevos referentes en tareas difíciles de recuperación y comprensión de videos largos. (b) Soluciones para superar los desafíos del entrenamiento visión-lenguaje, incluyendo el uso de empaquetado de secuencias enmascaradas para mezclar diferentes longitudes de secuencia, ponderación de pérdidas para equilibrar lenguaje y visión, y un conjunto de datos de preguntas y respuestas generado por el modelo para chats de secuencias largas. (c) Una implementación altamente optimizada con RingAttention, empaquetado de secuencias enmascaradas y otras características clave para entrenar en secuencias multimodales de millones de tokens. (d) Liberación completa de una familia de modelos de 7B parámetros capaces de procesar documentos de texto largos (LWM-Text, LWM-Text-Chat) y videos (LWM, LWM-Chat) de más de 1M tokens. Este trabajo allana el camino para entrenar en conjuntos de datos masivos de video y lenguaje largos, desarrollando una comprensión tanto del conocimiento humano como del mundo multimodal, y capacidades más amplias.
English
Current language models fall short in understanding aspects of the world not
easily described in words, and struggle with complex, long-form tasks. Video
sequences offer valuable temporal information absent in language and static
images, making them attractive for joint modeling with language. Such models
could develop a understanding of both human textual knowledge and the physical
world, enabling broader AI capabilities for assisting humans. However, learning
from millions of tokens of video and language sequences poses challenges due to
memory constraints, computational complexity, and limited datasets. To address
these challenges, we curate a large dataset of diverse videos and books,
utilize the RingAttention technique to scalably train on long sequences, and
gradually increase context size from 4K to 1M tokens. This paper makes the
following contributions: (a) Largest context size neural network: We train one
of the largest context size transformers on long video and language sequences,
setting new benchmarks in difficult retrieval tasks and long video
understanding. (b) Solutions for overcoming vision-language training
challenges, including using masked sequence packing for mixing different
sequence lengths, loss weighting to balance language and vision, and
model-generated QA dataset for long sequence chat. (c) A highly-optimized
implementation with RingAttention, masked sequence packing, and other key
features for training on millions-length multimodal sequences. (d) Fully
open-sourced a family of 7B parameter models capable of processing long text
documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M
tokens. This work paves the way for training on massive datasets of long video
and language to develop understanding of both human knowledge and the
multimodal world, and broader capabilities.