Tokenização Eficiente de Vídeos Longos via Reconstrução de Patches Baseada em Coordenação
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction
November 22, 2024
Autores: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI
Resumo
A tokenização eficiente de vídeos continua sendo um desafio no treinamento de modelos de visão computacional capazes de processar vídeos longos. Uma direção promissora é desenvolver um tokenizador que possa codificar longos trechos de vídeo, pois isso permitiria ao tokenizador aproveitar melhor a coerência temporal dos vídeos para a tokenização. No entanto, treinar tokenizadores existentes em vídeos longos frequentemente incorre em um custo de treinamento enorme, pois são treinados para reconstruir todos os quadros de uma vez. Neste artigo, apresentamos o CoordTok, um tokenizador de vídeo que aprende um mapeamento de representações baseadas em coordenadas para os patches correspondentes de vídeos de entrada, inspirado nos avanços recentes em modelos generativos 3D. Em particular, o CoordTok codifica um vídeo em representações triplanares fatorizadas e reconstrói patches que correspondem a coordenadas (x, y, t) amostradas aleatoriamente. Isso permite treinar modelos de tokenizador grandes diretamente em vídeos longos sem exigir recursos de treinamento excessivos. Nossos experimentos mostram que o CoordTok pode reduzir drasticamente o número de tokens para codificar longos trechos de vídeo. Por exemplo, o CoordTok pode codificar um vídeo de 128 quadros com resolução de 128x128 em 1280 tokens, enquanto as bases precisam de 6144 ou 8192 tokens para alcançar uma qualidade de reconstrução semelhante. Mostramos ainda que essa tokenização eficiente de vídeo permite o treinamento eficiente em memória de um transformador de difusão que pode gerar 128 quadros de uma vez.
English
Efficient tokenization of videos remains a challenge in training vision
models that can process long videos. One promising direction is to develop a
tokenizer that can encode long video clips, as it would enable the tokenizer to
leverage the temporal coherence of videos better for tokenization. However,
training existing tokenizers on long videos often incurs a huge training cost
as they are trained to reconstruct all the frames at once. In this paper, we
introduce CoordTok, a video tokenizer that learns a mapping from
coordinate-based representations to the corresponding patches of input videos,
inspired by recent advances in 3D generative models. In particular, CoordTok
encodes a video into factorized triplane representations and reconstructs
patches that correspond to randomly sampled (x,y,t) coordinates. This allows
for training large tokenizer models directly on long videos without requiring
excessive training resources. Our experiments show that CoordTok can
drastically reduce the number of tokens for encoding long video clips. For
instance, CoordTok can encode a 128-frame video with 128times128 resolution
into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar
reconstruction quality. We further show that this efficient video tokenization
enables memory-efficient training of a diffusion transformer that can generate
128 frames at once.Summary
AI-Generated Summary