Modello Mondiale su Video e Linguaggio di Lunghezza Milionaria con RingAttention

Abstract

Gli attuali modelli linguistici presentano limitazioni nella comprensione di aspetti del mondo non facilmente descrivibili a parole e faticano con compiti complessi e di lunga durata. Le sequenze video offrono preziose informazioni temporali assenti nel linguaggio e nelle immagini statiche, rendendole attraenti per una modellizzazione congiunta con il linguaggio. Tali modelli potrebbero sviluppare una comprensione sia della conoscenza testuale umana che del mondo fisico, abilitando capacità AI più ampie per assistere gli esseri umani. Tuttavia, l'apprendimento da milioni di token di sequenze video e linguistiche presenta sfide dovute a vincoli di memoria, complessità computazionale e dataset limitati. Per affrontare queste sfide, abbiamo curato un ampio dataset di video e libri diversificati, utilizzato la tecnica RingAttention per addestrare in modo scalabile su sequenze lunghe e aumentato gradualmente la dimensione del contesto da 4K a 1M di token. Questo articolo fornisce i seguenti contributi: (a) Rete neurale con la più ampia dimensione di contesto: Abbiamo addestrato uno dei transformer con la più ampia dimensione di contesto su sequenze lunghe di video e linguaggio, stabilendo nuovi benchmark in compiti di recupero difficili e nella comprensione di video lunghi. (b) Soluzioni per superare le sfide dell'addestramento visione-linguaggio, inclusa l'utilizzo del masked sequence packing per mescolare diverse lunghezze di sequenza, la ponderazione della perdita per bilanciare linguaggio e visione e un dataset QA generato dal modello per chat su sequenze lunghe. (c) Un'implementazione altamente ottimizzata con RingAttention, masked sequence packing e altre caratteristiche chiave per l'addestramento su sequenze multimodali di milioni di token. (d) Modelli completamente open-source di 7B parametri in grado di elaborare documenti di testo lunghi (LWM-Text, LWM-Text-Chat) e video (LWM, LWM-Chat) di oltre 1M di token. Questo lavoro apre la strada all'addestramento su enormi dataset di video e linguaggio lunghi per sviluppare una comprensione sia della conoscenza umana che del mondo multimodale, e capacità più ampie.

English

Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop a understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

Modello Mondiale su Video e Linguaggio di Lunghezza Milionaria con RingAttention

World Model on Million-Length Video And Language With RingAttention

Abstract

Support