Tokenización eficiente de videos largos a través de la Reconstrucción de Parches basada en Coordenadas.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction
November 22, 2024
Autores: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI
Resumen
La tokenización eficiente de videos sigue siendo un desafío en el entrenamiento de modelos de visión que pueden procesar videos largos. Una dirección prometedora es desarrollar un tokenizador que pueda codificar clips de video largos, ya que permitiría al tokenizador aprovechar mejor la coherencia temporal de los videos para la tokenización. Sin embargo, entrenar tokenizadores existentes en videos largos a menudo conlleva un gran costo de entrenamiento, ya que se entrenan para reconstruir todos los fotogramas a la vez. En este documento, presentamos CoordTok, un tokenizador de video que aprende un mapeo de representaciones basadas en coordenadas a los parches correspondientes de los videos de entrada, inspirado en los avances recientes en modelos generativos 3D. En particular, CoordTok codifica un video en representaciones triplano factorizadas y reconstruye parches que corresponden a coordenadas (x, y, t) muestreadas aleatoriamente. Esto permite entrenar modelos de tokenizador grandes directamente en videos largos sin requerir recursos de entrenamiento excesivos. Nuestros experimentos muestran que CoordTok puede reducir drásticamente el número de tokens para codificar clips de video largos. Por ejemplo, CoordTok puede codificar un video de 128 fotogramas con una resolución de 128x128 en 1280 tokens, mientras que los baselines necesitan 6144 o 8192 tokens para lograr una calidad de reconstrucción similar. Además, demostramos que esta tokenización eficiente de video permite el entrenamiento eficiente en memoria de un transformador de difusión que puede generar 128 fotogramas a la vez.
English
Efficient tokenization of videos remains a challenge in training vision
models that can process long videos. One promising direction is to develop a
tokenizer that can encode long video clips, as it would enable the tokenizer to
leverage the temporal coherence of videos better for tokenization. However,
training existing tokenizers on long videos often incurs a huge training cost
as they are trained to reconstruct all the frames at once. In this paper, we
introduce CoordTok, a video tokenizer that learns a mapping from
coordinate-based representations to the corresponding patches of input videos,
inspired by recent advances in 3D generative models. In particular, CoordTok
encodes a video into factorized triplane representations and reconstructs
patches that correspond to randomly sampled (x,y,t) coordinates. This allows
for training large tokenizer models directly on long videos without requiring
excessive training resources. Our experiments show that CoordTok can
drastically reduce the number of tokens for encoding long video clips. For
instance, CoordTok can encode a 128-frame video with 128times128 resolution
into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar
reconstruction quality. We further show that this efficient video tokenization
enables memory-efficient training of a diffusion transformer that can generate
128 frames at once.Summary
AI-Generated Summary