Weltmodell auf Millionen-Länge Video und Sprache mit RingAttention
World Model on Million-Length Video And Language With RingAttention
February 13, 2024
Autoren: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
cs.AI
Zusammenfassung
Aktuelle Sprachmodelle haben Schwierigkeiten, Aspekte der Welt zu verstehen, die sich nicht leicht in Worte fassen lassen, und kämpfen mit komplexen, langfristigen Aufgaben. Videosequenzen bieten wertvolle zeitliche Informationen, die in Sprache und statischen Bildern fehlen, was sie attraktiv für die gemeinsame Modellierung mit Sprache macht. Solche Modelle könnten ein Verständnis sowohl für menschliches Textwissen als auch für die physische Welt entwickeln und damit breitere KI-Fähigkeiten zur Unterstützung von Menschen ermöglichen. Das Lernen aus Millionen von Token aus Video- und Sprachsequenzen stellt jedoch aufgrund von Speicherbeschränkungen, Rechenkomplexität und begrenzten Datensätzen Herausforderungen dar. Um diese Herausforderungen zu bewältigen, haben wir einen großen Datensatz mit diversen Videos und Büchern zusammengestellt, die RingAttention-Technik eingesetzt, um skalierbar auf langen Sequenzen zu trainieren, und die Kontextgröße schrittweise von 4K auf 1M Token erhöht. Diese Arbeit leistet die folgenden Beiträge: (a) Neuronales Netzwerk mit der größten Kontextgröße: Wir trainieren eines der größten Transformer-Modelle mit langer Kontextgröße auf langen Video- und Sprachsequenzen und setzen neue Maßstäbe bei schwierigen Retrieval-Aufgaben und dem Verständnis langer Videos. (b) Lösungen zur Bewältigung der Herausforderungen beim Training von Vision-Sprache-Modellen, einschließlich der Verwendung von Masked Sequence Packing zur Vermischung unterschiedlicher Sequenzlängen, Loss Weighting zur Balance zwischen Sprache und Vision und einem modellgenerierten Frage-Antwort-Datensatz für lange Sequenzen im Chat. (c) Eine hochoptimierte Implementierung mit RingAttention, Masked Sequence Packing und anderen Schlüsselmerkmalen für das Training auf multimodalen Sequenzen mit Millionen von Token. (d) Vollständig quelloffene Familie von 7B-Parameter-Modellen, die in der Lage sind, lange Textdokumente (LWM-Text, LWM-Text-Chat) und Videos (LWM, LWM-Chat) mit über 1M Token zu verarbeiten. Diese Arbeit ebnet den Weg für das Training auf massiven Datensätzen aus langen Videos und Sprache, um ein Verständnis sowohl für menschliches Wissen als auch für die multimodale Welt und breitere Fähigkeiten zu entwickeln.
English
Current language models fall short in understanding aspects of the world not
easily described in words, and struggle with complex, long-form tasks. Video
sequences offer valuable temporal information absent in language and static
images, making them attractive for joint modeling with language. Such models
could develop a understanding of both human textual knowledge and the physical
world, enabling broader AI capabilities for assisting humans. However, learning
from millions of tokens of video and language sequences poses challenges due to
memory constraints, computational complexity, and limited datasets. To address
these challenges, we curate a large dataset of diverse videos and books,
utilize the RingAttention technique to scalably train on long sequences, and
gradually increase context size from 4K to 1M tokens. This paper makes the
following contributions: (a) Largest context size neural network: We train one
of the largest context size transformers on long video and language sequences,
setting new benchmarks in difficult retrieval tasks and long video
understanding. (b) Solutions for overcoming vision-language training
challenges, including using masked sequence packing for mixing different
sequence lengths, loss weighting to balance language and vision, and
model-generated QA dataset for long sequence chat. (c) A highly-optimized
implementation with RingAttention, masked sequence packing, and other key
features for training on millions-length multimodal sequences. (d) Fully
open-sourced a family of 7B parameter models capable of processing long text
documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M
tokens. This work paves the way for training on massive datasets of long video
and language to develop understanding of both human knowledge and the
multimodal world, and broader capabilities.