VideoFlexTok: Tokenización de Video de Gruesa a Fina con Longitud Flexible

Resumen

Los tokenizadores visuales mapean píxeles brutos de alta dimensión en una representación comprimida para el modelado posterior. Más allá de la compresión, los tokenizadores determinan qué información se preserva y cómo se organiza. Un enfoque estándar de facto para la tokenización de videos es representar un video como una cuadrícula espacio-temporal 3D de tokens, donde cada uno captura la información local correspondiente en la señal original. Esto requiere que el modelo posterior que consume los tokens, por ejemplo, un modelo de texto a video, aprenda a predecir todos los detalles de bajo nivel "píxel por píxel", independientemente de la complejidad inherente del video, lo que conlleva una alta complejidad de aprendizaje. Presentamos VideoFlexTok, que representa videos con una secuencia de longitud variable de tokens estructurada de manera gruesa a fina: donde los primeros tokens (emergen para) capturar información abstracta, como semántica y movimiento, y los tokens posteriores agregan detalles de grano fino. El decodificador de flujo generativo permite reconstrucciones realistas de video a partir de cualquier cantidad de tokens. Esta estructura de representación permite adaptar el número de tokens según las necesidades posteriores y codificar videos más largos que los métodos de referencia con el mismo presupuesto. Evaluamos VideoFlexTok en tareas generativas de clase a video y texto a video, y demostramos que conduce a un entrenamiento más eficiente en comparación con tokens de cuadrícula 3D, por ejemplo, logrando una calidad de generación comparable (gFVD y ViCLIP Score) con un modelo 5 veces más pequeño (1.1B frente a 5.2B). Finalmente, demostramos cómo VideoFlexTok puede permitir la generación de videos largos sin un costo computacional prohibitivo, entrenando un modelo de texto a video en videos de 10 segundos y 81 fotogramas con solo 672 tokens, 8 veces menos que un tokenizador de cuadrícula 3D comparable.

English

Visual tokenizers map high-dimensional raw pixels into a compressed representation for downstream modeling. Beyond compression, tokenizers dictate what information is preserved and how it is organized. A de facto standard approach to video tokenization is to represent a video as a spatiotemporal 3D grid of tokens, each capturing the corresponding local information in the original signal. This requires the downstream model that consumes the tokens, e.g., a text-to-video model, to learn to predict all low-level details "pixel-by-pixel" irrespective of the video's inherent complexity, leading to high learning complexity. We present VideoFlexTok, which represents videos with a variable-length sequence of tokens structured in a coarse-to-fine manner -- where the first tokens (emergently) capture abstract information, such as semantics and motion, and later tokens add fine-grained details. The generative flow decoder enables realistic video reconstructions from any token count. This representation structure allows adapting the token count according to downstream needs and encoding videos longer than the baselines with the same budget. We evaluate VideoFlexTok on class- and text-to-video generative tasks and show that it leads to more efficient training compared to 3D grid tokens, e.g., achieving comparable generation quality (gFVD and ViCLIP Score) with a 5x smaller model (1.1B vs 5.2B). Finally, we demonstrate how VideoFlexTok can enable long video generation without prohibitive computational cost by training a text-to-video model on 10-second 81-frame videos with only 672 tokens, 8x fewer than a comparable 3D grid tokenizer.

VideoFlexTok: Tokenización de Video de Gruesa a Fina con Longitud Flexible

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

Resumen

Support