링어텐션을 활용한 백만 길이 비디오와 언어에 대한 세계 모델
World Model on Million-Length Video And Language With RingAttention
February 13, 2024
저자: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel
cs.AI
초록
현재의 언어 모델은 단어로 쉽게 설명하기 어려운 세계의 측면을 이해하는 데 한계가 있으며, 복잡하고 장편의 작업을 처리하는 데 어려움을 겪습니다. 비디오 시퀀스는 언어와 정적 이미지에서는 얻을 수 없는 귀중한 시간적 정보를 제공하므로, 이를 언어와 함께 모델링하는 것이 매력적으로 여겨집니다. 이러한 모델은 인간의 텍스트 기반 지식과 물리적 세계를 모두 이해할 수 있게 되어, 인간을 보조하는 더 넓은 AI 능력을 가능하게 할 수 있습니다. 그러나 수백만 개의 토큰으로 이루어진 비디오와 언어 시퀀스로부터 학습하는 것은 메모리 제약, 계산 복잡성, 그리고 제한된 데이터셋으로 인해 도전 과제로 남아 있습니다. 이러한 도전 과제를 해결하기 위해, 우리는 다양한 비디오와 책으로 구성된 대규모 데이터셋을 구축하고, RingAttention 기법을 활용하여 긴 시퀀스에 대해 확장 가능한 학습을 수행하며, 컨텍스트 크기를 4K에서 1M 토큰까지 점진적으로 증가시켰습니다. 본 논문은 다음과 같은 기여를 합니다: (a) 가장 큰 컨텍스트 크기의 신경망: 우리는 긴 비디오와 언어 시퀀스에 대해 가장 큰 컨텍스트 크기의 트랜스포머 중 하나를 학습시켜, 어려운 검색 작업과 긴 비디오 이해에서 새로운 벤치마크를 설정했습니다. (b) 시각-언어 학습 도전 과제를 극복하기 위한 해결책, 다양한 시퀀스 길이를 혼합하기 위한 마스크된 시퀀스 패킹, 언어와 시각의 균형을 맞추기 위한 손실 가중치, 그리고 긴 시퀀스 채팅을 위한 모델 생성 QA 데이터셋을 포함합니다. (c) RingAttention, 마스크된 시퀀스 패킹, 그리고 수백만 길이의 멀티모달 시퀀스 학습을 위한 기타 주요 기능을 포함한 고도로 최적화된 구현. (d) 1M 토큰 이상의 긴 텍스트 문서(LWM-Text, LWM-Text-Chat)와 비디오(LWM, LWM-Chat)를 처리할 수 있는 7B 파라미터 모델 패밀리를 완전히 오픈소스로 공개했습니다. 이 작업은 긴 비디오와 언어로 구성된 대규모 데이터셋을 학습하여 인간의 지식과 멀티모달 세계를 이해하고, 더 넓은 능력을 개발하는 길을 열어줍니다.
English
Current language models fall short in understanding aspects of the world not
easily described in words, and struggle with complex, long-form tasks. Video
sequences offer valuable temporal information absent in language and static
images, making them attractive for joint modeling with language. Such models
could develop a understanding of both human textual knowledge and the physical
world, enabling broader AI capabilities for assisting humans. However, learning
from millions of tokens of video and language sequences poses challenges due to
memory constraints, computational complexity, and limited datasets. To address
these challenges, we curate a large dataset of diverse videos and books,
utilize the RingAttention technique to scalably train on long sequences, and
gradually increase context size from 4K to 1M tokens. This paper makes the
following contributions: (a) Largest context size neural network: We train one
of the largest context size transformers on long video and language sequences,
setting new benchmarks in difficult retrieval tasks and long video
understanding. (b) Solutions for overcoming vision-language training
challenges, including using masked sequence packing for mixing different
sequence lengths, loss weighting to balance language and vision, and
model-generated QA dataset for long sequence chat. (c) A highly-optimized
implementation with RingAttention, masked sequence packing, and other key
features for training on millions-length multimodal sequences. (d) Fully
open-sourced a family of 7B parameter models capable of processing long text
documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M
tokens. This work paves the way for training on massive datasets of long video
and language to develop understanding of both human knowledge and the
multimodal world, and broader capabilities.