Modèle mondial sur des vidéos et du langage de longueur millionnaire avec RingAttention
World Model on Million-Length Video And Language With RingAttention
February 13, 2024
Auteurs: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
cs.AI
Résumé
Les modèles de langage actuels présentent des lacunes dans la compréhension des aspects du monde qui ne sont pas facilement décrits par des mots, et peinent à accomplir des tâches complexes et de longue durée. Les séquences vidéo offrent des informations temporelles précieuses absentes dans le langage et les images statiques, ce qui les rend attrayantes pour un modélisation conjointe avec le langage. De tels modèles pourraient développer une compréhension à la fois des connaissances textuelles humaines et du monde physique, permettant des capacités d'IA plus étendues pour assister les humains. Cependant, l'apprentissage à partir de millions de tokens de séquences vidéo et langagières pose des défis en raison des contraintes de mémoire, de la complexité computationnelle et des jeux de données limités. Pour relever ces défis, nous avons constitué un vaste ensemble de données de vidéos et de livres diversifiés, utilisé la technique de RingAttention pour un entraînement scalable sur de longues séquences, et augmenté progressivement la taille du contexte de 4K à 1M tokens. Ce document apporte les contributions suivantes : (a) Le plus grand réseau neuronal en termes de taille de contexte : Nous avons entraîné l'un des plus grands transformeurs en taille de contexte sur de longues séquences vidéo et langagières, établissant de nouveaux benchmarks dans des tâches de récupération difficiles et la compréhension de longues vidéos. (b) Des solutions pour surmonter les défis de l'entraînement vision-langage, incluant l'utilisation du masquage de séquence pour mélanger différentes longueurs de séquence, la pondération des pertes pour équilibrer langage et vision, et un jeu de données de questions-réponses généré par le modèle pour le chat sur de longues séquences. (c) Une implémentation hautement optimisée avec RingAttention, le masquage de séquence, et d'autres fonctionnalités clés pour l'entraînement sur des séquences multimodales de millions de tokens. (d) La mise en open source complète d'une famille de modèles de 7B paramètres capables de traiter de longs documents textuels (LWM-Text, LWM-Text-Chat) et des vidéos (LWM, LWM-Chat) de plus de 1M tokens. Ce travail ouvre la voie à l'entraînement sur des jeux de données massifs de longues vidéos et de langage pour développer une compréhension à la fois des connaissances humaines et du monde multimodal, ainsi que des capacités plus étendues.
English
Current language models fall short in understanding aspects of the world not
easily described in words, and struggle with complex, long-form tasks. Video
sequences offer valuable temporal information absent in language and static
images, making them attractive for joint modeling with language. Such models
could develop a understanding of both human textual knowledge and the physical
world, enabling broader AI capabilities for assisting humans. However, learning
from millions of tokens of video and language sequences poses challenges due to
memory constraints, computational complexity, and limited datasets. To address
these challenges, we curate a large dataset of diverse videos and books,
utilize the RingAttention technique to scalably train on long sequences, and
gradually increase context size from 4K to 1M tokens. This paper makes the
following contributions: (a) Largest context size neural network: We train one
of the largest context size transformers on long video and language sequences,
setting new benchmarks in difficult retrieval tasks and long video
understanding. (b) Solutions for overcoming vision-language training
challenges, including using masked sequence packing for mixing different
sequence lengths, loss weighting to balance language and vision, and
model-generated QA dataset for long sequence chat. (c) A highly-optimized
implementation with RingAttention, masked sequence packing, and other key
features for training on millions-length multimodal sequences. (d) Fully
open-sourced a family of 7B parameter models capable of processing long text
documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M
tokens. This work paves the way for training on massive datasets of long video
and language to develop understanding of both human knowledge and the
multimodal world, and broader capabilities.Summary
AI-Generated Summary