ChatPaper.aiChatPaper

Wereldmodel op Miljoen-Lengte Video en Taal met RingAttention

World Model on Million-Length Video And Language With RingAttention

February 13, 2024
Auteurs: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
cs.AI

Samenvatting

Huidige taalmodellen schieten tekort in het begrijpen van aspecten van de wereld die niet gemakkelijk in woorden te beschrijven zijn, en hebben moeite met complexe, langdurige taken. Videosequenties bieden waardevolle temporele informatie die afwezig is in taal en statische afbeeldingen, waardoor ze aantrekkelijk zijn voor gezamenlijke modellering met taal. Dergelijke modellen zouden zowel menselijke tekstuele kennis als de fysieke wereld kunnen begrijpen, wat bredere AI-mogelijkheden biedt om mensen te assisteren. Het leren van miljoenen tokens van video- en taalsequenties brengt echter uitdagingen met zich mee vanwege geheugenbeperkingen, computationele complexiteit en beperkte datasets. Om deze uitdagingen aan te pakken, hebben we een grote dataset samengesteld van diverse video's en boeken, gebruiken we de RingAttention-techniek om schaalbaar te trainen op lange sequenties, en verhogen we geleidelijk de contextgrootte van 4K naar 1M tokens. Dit artikel levert de volgende bijdragen: (a) Het grootste contextgrootte-neuraal netwerk: We trainen een van de grootste contextgrootte-transformers op lange video- en taalsequenties, wat nieuwe benchmarks stelt in moeilijke retrievalthtaken en langdurig videobegrip. (b) Oplossingen voor het overwinnen van uitdagingen bij visie-taaltraining, waaronder het gebruik van gemaskeerde sequentiepakking voor het mengen van verschillende sequentielengtes, verliesweging om taal en visie in balans te brengen, en een door het model gegenereerde QA-dataset voor lange sequentiechat. (c) Een sterk geoptimaliseerde implementatie met RingAttention, gemaskeerde sequentiepakking en andere belangrijke functies voor het trainen op multimodale sequenties van miljoenen lengtes. (d) Volledig open-source gemaakt van een familie van 7B-parametermodellen die in staat zijn om lange tekstdocumenten (LWM-Text, LWM-Text-Chat) en video's (LWM, LWM-Chat) van meer dan 1M tokens te verwerken. Dit werk baant de weg voor het trainen op enorme datasets van lange video en taal om zowel menselijke kennis als de multimodale wereld te begrijpen, en bredere mogelijkheden te ontwikkelen.
English
Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop a understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.
PDF405February 7, 2026