Wereldmodel op Miljoen-Lengte Video en Taal met RingAttention
World Model on Million-Length Video And Language With RingAttention
February 13, 2024
Auteurs: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
cs.AI
Samenvatting
Huidige taalmodellen schieten tekort in het begrijpen van aspecten van de wereld die niet gemakkelijk in woorden te beschrijven zijn, en hebben moeite met complexe, langdurige taken. Videosequenties bieden waardevolle temporele informatie die afwezig is in taal en statische afbeeldingen, waardoor ze aantrekkelijk zijn voor gezamenlijke modellering met taal. Dergelijke modellen zouden zowel menselijke tekstuele kennis als de fysieke wereld kunnen begrijpen, wat bredere AI-mogelijkheden biedt om mensen te assisteren. Het leren van miljoenen tokens van video- en taalsequenties brengt echter uitdagingen met zich mee vanwege geheugenbeperkingen, computationele complexiteit en beperkte datasets. Om deze uitdagingen aan te pakken, hebben we een grote dataset samengesteld van diverse video's en boeken, gebruiken we de RingAttention-techniek om schaalbaar te trainen op lange sequenties, en verhogen we geleidelijk de contextgrootte van 4K naar 1M tokens. Dit artikel levert de volgende bijdragen: (a) Het grootste contextgrootte-neuraal netwerk: We trainen een van de grootste contextgrootte-transformers op lange video- en taalsequenties, wat nieuwe benchmarks stelt in moeilijke retrievalthtaken en langdurig videobegrip. (b) Oplossingen voor het overwinnen van uitdagingen bij visie-taaltraining, waaronder het gebruik van gemaskeerde sequentiepakking voor het mengen van verschillende sequentielengtes, verliesweging om taal en visie in balans te brengen, en een door het model gegenereerde QA-dataset voor lange sequentiechat. (c) Een sterk geoptimaliseerde implementatie met RingAttention, gemaskeerde sequentiepakking en andere belangrijke functies voor het trainen op multimodale sequenties van miljoenen lengtes. (d) Volledig open-source gemaakt van een familie van 7B-parametermodellen die in staat zijn om lange tekstdocumenten (LWM-Text, LWM-Text-Chat) en video's (LWM, LWM-Chat) van meer dan 1M tokens te verwerken. Dit werk baant de weg voor het trainen op enorme datasets van lange video en taal om zowel menselijke kennis als de multimodale wereld te begrijpen, en bredere mogelijkheden te ontwikkelen.
English
Current language models fall short in understanding aspects of the world not
easily described in words, and struggle with complex, long-form tasks. Video
sequences offer valuable temporal information absent in language and static
images, making them attractive for joint modeling with language. Such models
could develop a understanding of both human textual knowledge and the physical
world, enabling broader AI capabilities for assisting humans. However, learning
from millions of tokens of video and language sequences poses challenges due to
memory constraints, computational complexity, and limited datasets. To address
these challenges, we curate a large dataset of diverse videos and books,
utilize the RingAttention technique to scalably train on long sequences, and
gradually increase context size from 4K to 1M tokens. This paper makes the
following contributions: (a) Largest context size neural network: We train one
of the largest context size transformers on long video and language sequences,
setting new benchmarks in difficult retrieval tasks and long video
understanding. (b) Solutions for overcoming vision-language training
challenges, including using masked sequence packing for mixing different
sequence lengths, loss weighting to balance language and vision, and
model-generated QA dataset for long sequence chat. (c) A highly-optimized
implementation with RingAttention, masked sequence packing, and other key
features for training on millions-length multimodal sequences. (d) Fully
open-sourced a family of 7B parameter models capable of processing long text
documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M
tokens. This work paves the way for training on massive datasets of long video
and language to develop understanding of both human knowledge and the
multimodal world, and broader capabilities.