Мировая модель на видео и языке миллионной длины с использованием кольцевого внимания
World Model on Million-Length Video And Language With RingAttention
February 13, 2024
Авторы: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
cs.AI
Аннотация
Современные языковые модели не справляются с пониманием аспектов мира, которые сложно описать словами, и испытывают трудности с выполнением сложных, длительных задач. Видеопоследовательности предоставляют ценную временную информацию, отсутствующую в языке и статических изображениях, что делает их привлекательными для совместного моделирования с языком. Такие модели могли бы развить понимание как человеческих текстовых знаний, так и физического мира, что позволило бы расширить возможности ИИ для помощи людям. Однако обучение на миллионах токенов видеопоследовательностей и языковых данных сталкивается с проблемами из-за ограничений памяти, вычислительной сложности и недостатка данных. Для решения этих проблем мы создали большой набор данных, включающий разнообразные видео и книги, использовали технику RingAttention для масштабируемого обучения на длинных последовательностях и постепенно увеличивали размер контекста с 4K до 1M токенов. В данной статье представлены следующие вклады: (a) Нейронная сеть с самым большим размером контекста: Мы обучили одну из крупнейших трансформерных моделей с большим размером контекста на длинных видеопоследовательностях и языковых данных, установив новые стандарты в сложных задачах поиска и понимания длинных видео. (b) Решения для преодоления проблем обучения на данных, сочетающих зрение и язык, включая использование маскированной упаковки последовательностей для смешивания разных длин, взвешивание потерь для баланса между языком и зрением и создание набора данных для чата с длинными последовательностями на основе модели. (c) Высокооптимизированная реализация с использованием RingAttention, маскированной упаковки последовательностей и других ключевых функций для обучения на мультимодальных последовательностях длиной в миллионы токенов. (d) Полностью открытые модели с 7B параметров, способные обрабатывать длинные текстовые документы (LWM-Text, LWM-Text-Chat) и видео (LWM, LWM-Chat) длиной более 1M токенов. Эта работа прокладывает путь для обучения на огромных наборах данных, включающих длинные видео и языковые последовательности, что способствует развитию понимания как человеческих знаний, так и мультимодального мира, а также расширению возможностей ИИ.
English
Current language models fall short in understanding aspects of the world not
easily described in words, and struggle with complex, long-form tasks. Video
sequences offer valuable temporal information absent in language and static
images, making them attractive for joint modeling with language. Such models
could develop a understanding of both human textual knowledge and the physical
world, enabling broader AI capabilities for assisting humans. However, learning
from millions of tokens of video and language sequences poses challenges due to
memory constraints, computational complexity, and limited datasets. To address
these challenges, we curate a large dataset of diverse videos and books,
utilize the RingAttention technique to scalably train on long sequences, and
gradually increase context size from 4K to 1M tokens. This paper makes the
following contributions: (a) Largest context size neural network: We train one
of the largest context size transformers on long video and language sequences,
setting new benchmarks in difficult retrieval tasks and long video
understanding. (b) Solutions for overcoming vision-language training
challenges, including using masked sequence packing for mixing different
sequence lengths, loss weighting to balance language and vision, and
model-generated QA dataset for long sequence chat. (c) A highly-optimized
implementation with RingAttention, masked sequence packing, and other key
features for training on millions-length multimodal sequences. (d) Fully
open-sourced a family of 7B parameter models capable of processing long text
documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M
tokens. This work paves the way for training on massive datasets of long video
and language to develop understanding of both human knowledge and the
multimodal world, and broader capabilities.Summary
AI-Generated Summary