ChatPaper.aiChatPaper

조정 기반 패치 재구성을 통한 효율적인 장기 비디오 토큰화

Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

November 22, 2024
저자: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI

초록

비디오의 효율적인 토큰화는 긴 비디오를 처리할 수 있는 비전 모델을 훈련하는 데 여전히 어려운 과제입니다. 하나 유망한 방향은 긴 비디오 클립을 인코딩할 수 있는 토크나이저를 개발하는 것인데, 이는 비디오의 시간적 일관성을 더 잘 활용하여 토큰화할 수 있게 합니다. 그러나 기존의 토크나이저를 긴 비디오에 훈련시키는 것은 종종 모든 프레임을 한꺼번에 재구성하도록 훈련되어 막대한 훈련 비용이 발생합니다. 본 논문에서는 최근 3D 생성 모델의 발전을 영감으로 받아, 입력 비디오의 해당 패치로부터 좌표 기반 표현에 대한 매핑을 학습하는 비디오 토크나이저인 CoordTok을 소개합니다. 특히, CoordTok은 비디오를 인수화된 삼면체 표현으로 인코딩하고 임의로 샘플링된 (x, y, t) 좌표에 해당하는 패치를 재구성합니다. 이를 통해 과도한 훈련 자원이 필요하지 않고 직접 긴 비디오에 대한 대규모 토크나이저 모델을 훈련할 수 있습니다. 실험 결과 CoordTok은 긴 비디오 클립을 인코딩하는 데 필요한 토큰 수를 현저히 줄일 수 있음을 보여줍니다. 예를 들어, CoordTok은 128프레임, 128x128 해상도의 비디오를 1280개의 토큰으로 인코딩할 수 있으며, 기준 모델은 유사한 재구성 품질을 얻기 위해 6144 또는 8192개의 토큰이 필요합니다. 또한 이 효율적인 비디오 토큰화를 통해 한 번에 128프레임을 생성할 수 있는 확산 트랜스포머의 메모리 효율적인 훈련이 가능함을 보여줍니다.
English
Efficient tokenization of videos remains a challenge in training vision models that can process long videos. One promising direction is to develop a tokenizer that can encode long video clips, as it would enable the tokenizer to leverage the temporal coherence of videos better for tokenization. However, training existing tokenizers on long videos often incurs a huge training cost as they are trained to reconstruct all the frames at once. In this paper, we introduce CoordTok, a video tokenizer that learns a mapping from coordinate-based representations to the corresponding patches of input videos, inspired by recent advances in 3D generative models. In particular, CoordTok encodes a video into factorized triplane representations and reconstructs patches that correspond to randomly sampled (x,y,t) coordinates. This allows for training large tokenizer models directly on long videos without requiring excessive training resources. Our experiments show that CoordTok can drastically reduce the number of tokens for encoding long video clips. For instance, CoordTok can encode a 128-frame video with 128times128 resolution into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar reconstruction quality. We further show that this efficient video tokenization enables memory-efficient training of a diffusion transformer that can generate 128 frames at once.

Summary

AI-Generated Summary

PDF112November 25, 2024