ChatPaper.aiChatPaper

Weltmodell auf Millionen-Länge Video und Sprache mit RingAttention

World Model on Million-Length Video And Language With RingAttention

February 13, 2024
Autoren: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
cs.AI

Zusammenfassung

Aktuelle Sprachmodelle haben Schwierigkeiten, Aspekte der Welt zu verstehen, die sich nicht leicht in Worte fassen lassen, und kämpfen mit komplexen, langfristigen Aufgaben. Videosequenzen bieten wertvolle zeitliche Informationen, die in Sprache und statischen Bildern fehlen, was sie attraktiv für die gemeinsame Modellierung mit Sprache macht. Solche Modelle könnten ein Verständnis sowohl für menschliches Textwissen als auch für die physische Welt entwickeln und damit breitere KI-Fähigkeiten zur Unterstützung von Menschen ermöglichen. Das Lernen aus Millionen von Token aus Video- und Sprachsequenzen stellt jedoch aufgrund von Speicherbeschränkungen, Rechenkomplexität und begrenzten Datensätzen Herausforderungen dar. Um diese Herausforderungen zu bewältigen, haben wir einen großen Datensatz mit diversen Videos und Büchern zusammengestellt, die RingAttention-Technik eingesetzt, um skalierbar auf langen Sequenzen zu trainieren, und die Kontextgröße schrittweise von 4K auf 1M Token erhöht. Diese Arbeit leistet die folgenden Beiträge: (a) Neuronales Netzwerk mit der größten Kontextgröße: Wir trainieren eines der größten Transformer-Modelle mit langer Kontextgröße auf langen Video- und Sprachsequenzen und setzen neue Maßstäbe bei schwierigen Retrieval-Aufgaben und dem Verständnis langer Videos. (b) Lösungen zur Bewältigung der Herausforderungen beim Training von Vision-Sprache-Modellen, einschließlich der Verwendung von Masked Sequence Packing zur Vermischung unterschiedlicher Sequenzlängen, Loss Weighting zur Balance zwischen Sprache und Vision und einem modellgenerierten Frage-Antwort-Datensatz für lange Sequenzen im Chat. (c) Eine hochoptimierte Implementierung mit RingAttention, Masked Sequence Packing und anderen Schlüsselmerkmalen für das Training auf multimodalen Sequenzen mit Millionen von Token. (d) Vollständig quelloffene Familie von 7B-Parameter-Modellen, die in der Lage sind, lange Textdokumente (LWM-Text, LWM-Text-Chat) und Videos (LWM, LWM-Chat) mit über 1M Token zu verarbeiten. Diese Arbeit ebnet den Weg für das Training auf massiven Datensätzen aus langen Videos und Sprache, um ein Verständnis sowohl für menschliches Wissen als auch für die multimodale Welt und breitere Fähigkeiten zu entwickeln.
English
Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop a understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.
PDF405December 15, 2024