Modelo Mundial em Vídeo e Linguagem de Milhões de Comprimento com RingAttention
World Model on Million-Length Video And Language With RingAttention
February 13, 2024
Autores: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
cs.AI
Resumo
Os modelos de linguagem atuais têm dificuldades em compreender aspectos do mundo que não são facilmente descritos em palavras e lutam com tarefas complexas e de longa duração. Sequências de vídeo oferecem informações temporais valiosas que estão ausentes na linguagem e em imagens estáticas, tornando-as atraentes para modelagem conjunta com a linguagem. Tais modelos poderiam desenvolver uma compreensão tanto do conhecimento textual humano quanto do mundo físico, permitindo capacidades mais amplas de IA para auxiliar os humanos. No entanto, aprender a partir de milhões de tokens de sequências de vídeo e linguagem apresenta desafios devido a restrições de memória, complexidade computacional e conjuntos de dados limitados. Para enfrentar esses desafios, organizamos um grande conjunto de dados de vídeos e livros diversos, utilizamos a técnica RingAttention para treinar de forma escalável em sequências longas e aumentamos gradualmente o tamanho do contexto de 4K para 1M de tokens. Este artigo faz as seguintes contribuições: (a) Maior tamanho de contexto em redes neurais: Treinamos um dos maiores transformers em termos de tamanho de contexto em sequências longas de vídeo e linguagem, estabelecendo novos benchmarks em tarefas difíceis de recuperação e compreensão de vídeos longos. (b) Soluções para superar os desafios do treinamento de visão e linguagem, incluindo o uso de empacotamento de sequências mascaradas para misturar diferentes comprimentos de sequência, ponderação de perda para equilibrar linguagem e visão, e um conjunto de dados de perguntas e respostas gerado pelo modelo para chat em sequências longas. (c) Uma implementação altamente otimizada com RingAttention, empacotamento de sequências mascaradas e outras características-chave para treinamento em sequências multimodais de milhões de tokens. (d) Modelos de 7B de parâmetros totalmente de código aberto, capazes de processar documentos de texto longos (LWM-Text, LWM-Text-Chat) e vídeos (LWM, LWM-Chat) com mais de 1M de tokens. Este trabalho abre caminho para o treinamento em grandes conjuntos de dados de vídeo e linguagem de longa duração, desenvolvendo a compreensão tanto do conhecimento humano quanto do mundo multimodal, e capacidades mais amplas.
English
Current language models fall short in understanding aspects of the world not
easily described in words, and struggle with complex, long-form tasks. Video
sequences offer valuable temporal information absent in language and static
images, making them attractive for joint modeling with language. Such models
could develop a understanding of both human textual knowledge and the physical
world, enabling broader AI capabilities for assisting humans. However, learning
from millions of tokens of video and language sequences poses challenges due to
memory constraints, computational complexity, and limited datasets. To address
these challenges, we curate a large dataset of diverse videos and books,
utilize the RingAttention technique to scalably train on long sequences, and
gradually increase context size from 4K to 1M tokens. This paper makes the
following contributions: (a) Largest context size neural network: We train one
of the largest context size transformers on long video and language sequences,
setting new benchmarks in difficult retrieval tasks and long video
understanding. (b) Solutions for overcoming vision-language training
challenges, including using masked sequence packing for mixing different
sequence lengths, loss weighting to balance language and vision, and
model-generated QA dataset for long sequence chat. (c) A highly-optimized
implementation with RingAttention, masked sequence packing, and other key
features for training on millions-length multimodal sequences. (d) Fully
open-sourced a family of 7B parameter models capable of processing long text
documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M
tokens. This work paves the way for training on massive datasets of long video
and language to develop understanding of both human knowledge and the
multimodal world, and broader capabilities.