조정 기반 패치 재구성을 통한 효율적인 장기 비디오 토큰화
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction
November 22, 2024
저자: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI
초록
비디오의 효율적인 토큰화는 긴 비디오를 처리할 수 있는 비전 모델을 훈련하는 데 여전히 어려운 과제입니다. 하나 유망한 방향은 긴 비디오 클립을 인코딩할 수 있는 토크나이저를 개발하는 것인데, 이는 비디오의 시간적 일관성을 더 잘 활용하여 토큰화할 수 있게 합니다. 그러나 기존의 토크나이저를 긴 비디오에 훈련시키는 것은 종종 모든 프레임을 한꺼번에 재구성하도록 훈련되어 막대한 훈련 비용이 발생합니다. 본 논문에서는 최근 3D 생성 모델의 발전을 영감으로 받아, 입력 비디오의 해당 패치로부터 좌표 기반 표현에 대한 매핑을 학습하는 비디오 토크나이저인 CoordTok을 소개합니다. 특히, CoordTok은 비디오를 인수화된 삼면체 표현으로 인코딩하고 임의로 샘플링된 (x, y, t) 좌표에 해당하는 패치를 재구성합니다. 이를 통해 과도한 훈련 자원이 필요하지 않고 직접 긴 비디오에 대한 대규모 토크나이저 모델을 훈련할 수 있습니다. 실험 결과 CoordTok은 긴 비디오 클립을 인코딩하는 데 필요한 토큰 수를 현저히 줄일 수 있음을 보여줍니다. 예를 들어, CoordTok은 128프레임, 128x128 해상도의 비디오를 1280개의 토큰으로 인코딩할 수 있으며, 기준 모델은 유사한 재구성 품질을 얻기 위해 6144 또는 8192개의 토큰이 필요합니다. 또한 이 효율적인 비디오 토큰화를 통해 한 번에 128프레임을 생성할 수 있는 확산 트랜스포머의 메모리 효율적인 훈련이 가능함을 보여줍니다.
English
Efficient tokenization of videos remains a challenge in training vision
models that can process long videos. One promising direction is to develop a
tokenizer that can encode long video clips, as it would enable the tokenizer to
leverage the temporal coherence of videos better for tokenization. However,
training existing tokenizers on long videos often incurs a huge training cost
as they are trained to reconstruct all the frames at once. In this paper, we
introduce CoordTok, a video tokenizer that learns a mapping from
coordinate-based representations to the corresponding patches of input videos,
inspired by recent advances in 3D generative models. In particular, CoordTok
encodes a video into factorized triplane representations and reconstructs
patches that correspond to randomly sampled (x,y,t) coordinates. This allows
for training large tokenizer models directly on long videos without requiring
excessive training resources. Our experiments show that CoordTok can
drastically reduce the number of tokens for encoding long video clips. For
instance, CoordTok can encode a 128-frame video with 128times128 resolution
into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar
reconstruction quality. We further show that this efficient video tokenization
enables memory-efficient training of a diffusion transformer that can generate
128 frames at once.Summary
AI-Generated Summary