協調ベースのパッチ再構成を用いた効率的な長時間ビデオのトークン化
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction
November 22, 2024
著者: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI
要旨
ビデオの効率的なトークン化は、長いビデオを処理できるビジョンモデルの訓練において依然として課題です。有望な方向の1つは、長いビデオクリップをエンコードできるトークナイザーを開発することであり、これにより、ビデオの時間的な整合性をトークン化により効果的に活用できるようになります。ただし、既存のトークナイザーを長いビデオで訓練することは、すべてのフレームを一度に再構築するように訓練されているため、非常に高い訓練コストがかかることがしばしばあります。本論文では、最近の3D生成モデルの進歩に触発され、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学習するビデオトークナイザーであるCoordTokを紹介します。具体的には、CoordTokはビデオを因子化された三面体表現にエンコードし、ランダムにサンプリングされた(x,y,t)座標に対応するパッチを再構築します。これにより、大規模なトークナイザーモデルを長いビデオに直接訓練することが可能となり、過剰な訓練リソースが必要ありません。実験では、CoordTokが長いビデオクリップをエンコードするためのトークン数を劇的に削減できることを示しています。例えば、CoordTokは、128フレームの128×128解像度のビデオを1280トークンにエンコードできますが、ベースラインでは同様の再構築品質を達成するために6144または8192トークンが必要です。さらに、この効率的なビデオトークン化により、一度に128フレームを生成できる拡散トランスフォーマーのメモリ効率の良いトレーニングが可能であることも示しています。
English
Efficient tokenization of videos remains a challenge in training vision
models that can process long videos. One promising direction is to develop a
tokenizer that can encode long video clips, as it would enable the tokenizer to
leverage the temporal coherence of videos better for tokenization. However,
training existing tokenizers on long videos often incurs a huge training cost
as they are trained to reconstruct all the frames at once. In this paper, we
introduce CoordTok, a video tokenizer that learns a mapping from
coordinate-based representations to the corresponding patches of input videos,
inspired by recent advances in 3D generative models. In particular, CoordTok
encodes a video into factorized triplane representations and reconstructs
patches that correspond to randomly sampled (x,y,t) coordinates. This allows
for training large tokenizer models directly on long videos without requiring
excessive training resources. Our experiments show that CoordTok can
drastically reduce the number of tokens for encoding long video clips. For
instance, CoordTok can encode a 128-frame video with 128times128 resolution
into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar
reconstruction quality. We further show that this efficient video tokenization
enables memory-efficient training of a diffusion transformer that can generate
128 frames at once.Summary
AI-Generated Summary