EVATok: Tokenización Adaptativa de Videos por Longitud para una Generación Visual Autoregresiva Eficiente

Resumen

Los modelos generativos de video autorregresivos (AR) se basan en tokenizadores de video que comprimen píxeles en secuencias discretas de tokens. La longitud de estas secuencias de tokens es crucial para equilibrar la calidad de la reconstrucción con el coste computacional de la generación subsiguiente. Los tokenizadores de video tradicionales aplican una asignación uniforme de tokens a bloques temporales de diferentes videos, desperdiciando a menudo tokens en segmentos simples, estáticos o repetitivos, mientras asignan insuficientes a segmentos dinámicos o complejos. Para abordar esta ineficiencia, presentamos EVATok, un marco para producir Tokenizadores de Video Adaptativos Eficientes. Nuestro marco estima asignaciones óptimas de tokens para cada video para lograr la mejor relación calidad-coste, desarrolla enrutadores ligeros para predecir rápidamente estas asignaciones óptimas y entrena tokenizadores adaptativos que codifican videos basándose en las asignaciones predichas por los enrutadores. Demostramos que EVATok ofrece mejoras sustanciales en eficiencia y calidad general para la reconstrucción de video y la generación AR subsiguiente. Potenciado por nuestra receta de entrenamiento avanzada que integra codificadores semánticos de video, EVATok logra una reconstrucción superior y una generación de clase a video de vanguardia en UCF-101, con un ahorro de al menos el 24.4% en el uso promedio de tokens en comparación con el anterior estado del arte LARP y nuestra línea base de longitud fija.

English

Autoregressive (AR) video generative models rely on video tokenizers that compress pixels into discrete token sequences. The length of these token sequences is crucial for balancing reconstruction quality against downstream generation computational cost. Traditional video tokenizers apply a uniform token assignment across temporal blocks of different videos, often wasting tokens on simple, static, or repetitive segments while underserving dynamic or complex ones. To address this inefficiency, we introduce EVATok, a framework to produce Efficient Video Adaptive Tokenizers. Our framework estimates optimal token assignments for each video to achieve the best quality-cost trade-off, develops lightweight routers for fast prediction of these optimal assignments, and trains adaptive tokenizers that encode videos based on the assignments predicted by routers. We demonstrate that EVATok delivers substantial improvements in efficiency and overall quality for video reconstruction and downstream AR generation. Enhanced by our advanced training recipe that integrates video semantic encoders, EVATok achieves superior reconstruction and state-of-the-art class-to-video generation on UCF-101, with at least 24.4% savings in average token usage compared to the prior state-of-the-art LARP and our fixed-length baseline.

EVATok: Tokenización Adaptativa de Videos por Longitud para una Generación Visual Autoregresiva Eficiente

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Resumen

Support