Efficiënte tokenisatie van lange video's via op coördinaten gebaseerde patchreconstructie.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction
November 22, 2024
Auteurs: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI
Samenvatting
Efficiënte tokenisatie van video's blijft een uitdaging bij het trainen van visiemodellen die lange video's kunnen verwerken. Een veelbelovende richting is het ontwikkelen van een tokenizer die lange videoclips kan encoderen, aangezien dit de tokenizer in staat zou stellen om de temporele coherentie van video's beter te benutten voor tokenisatie. Echter, het trainen van bestaande tokenizers op lange video's brengt vaak een grote trainingskost met zich mee, aangezien ze worden getraind om alle frames in één keer te reconstrueren. In dit artikel introduceren we CoordTok, een videotokenizer die een mapping leert van op coördinaten gebaseerde representaties naar de overeenkomstige patches van invoervideo's, geïnspireerd door recente ontwikkelingen in 3D generatieve modellen. In het bijzonder codeert CoordTok een video in gefactoriseerde triplane representaties en reconstrueert patches die overeenkomen met willekeurig gesamplede (x,y,t) coördinaten. Dit maakt het mogelijk om grote tokenizermodellen rechtstreeks op lange video's te trainen zonder dat er buitensporige trainingsbronnen nodig zijn. Onze experimenten tonen aan dat CoordTok het aantal tokens drastisch kan verminderen voor het encoderen van lange videoclips. Zo kan CoordTok bijvoorbeeld een 128-frame video met een resolutie van 128x128 encoderen in 1280 tokens, terwijl baselines 6144 of 8192 tokens nodig hebben om een vergelijkbare reconstructiekwaliteit te bereiken. We tonen verder aan dat deze efficiënte videotokenisatie het geheugenefficiënt trainen van een diffusietransformer mogelijk maakt die 128 frames tegelijk kan genereren.
English
Efficient tokenization of videos remains a challenge in training vision
models that can process long videos. One promising direction is to develop a
tokenizer that can encode long video clips, as it would enable the tokenizer to
leverage the temporal coherence of videos better for tokenization. However,
training existing tokenizers on long videos often incurs a huge training cost
as they are trained to reconstruct all the frames at once. In this paper, we
introduce CoordTok, a video tokenizer that learns a mapping from
coordinate-based representations to the corresponding patches of input videos,
inspired by recent advances in 3D generative models. In particular, CoordTok
encodes a video into factorized triplane representations and reconstructs
patches that correspond to randomly sampled (x,y,t) coordinates. This allows
for training large tokenizer models directly on long videos without requiring
excessive training resources. Our experiments show that CoordTok can
drastically reduce the number of tokens for encoding long video clips. For
instance, CoordTok can encode a 128-frame video with 128times128 resolution
into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar
reconstruction quality. We further show that this efficient video tokenization
enables memory-efficient training of a diffusion transformer that can generate
128 frames at once.Summary
AI-Generated Summary