EVATok: Tokenização Adaptativa de Vídeos por Comprimento para Geração Visual Autorregressiva Eficiente

Resumo

Os modelos generativos de vídeo autoregressivos (AR) dependem de tokenizadores de vídeo que comprimem pixels em sequências discretas de tokens. O comprimento dessas sequências de tokens é crucial para equilibrar a qualidade de reconstrução com o custo computacional da geração subsequente. Os tokenizadores de vídeo tradicionais aplicam uma atribuição uniforme de tokens em blocos temporais de diferentes vídeos, frequentemente desperdiçando tokens em segmentos simples, estáticos ou repetitivos, enquanto subutilizam tokens em segmentos dinâmicos ou complexos. Para resolver esta ineficiência, introduzimos o EVATok, uma estrutura para produzir Tokenizadores de Vídeo Adaptativos Eficientes. Nossa estrutura estima atribuições ótimas de tokens para cada vídeo para alcançar o melhor equilíbrio entre qualidade e custo, desenvolve roteadores leves para a previsão rápida dessas atribuições ótimas e treina tokenizadores adaptativos que codificam vídeos com base nas atribuições previstas pelos roteadores. Demonstramos que o EVATok oferece melhorias substanciais em eficiência e qualidade geral para reconstrução de vídeo e geração AR subsequente. Potencializado por nossa receita de treinamento avançada que integra codificadores semânticos de vídeo, o EVATok alcança reconstrução superior e geração state-of-the-art de classe-para-vídeo no UCF-101, com uma economia de pelo menos 24,4% no uso médio de tokens em comparação com o LARP (estado da arte anterior) e nossa linha de base de comprimento fixo.

English

Autoregressive (AR) video generative models rely on video tokenizers that compress pixels into discrete token sequences. The length of these token sequences is crucial for balancing reconstruction quality against downstream generation computational cost. Traditional video tokenizers apply a uniform token assignment across temporal blocks of different videos, often wasting tokens on simple, static, or repetitive segments while underserving dynamic or complex ones. To address this inefficiency, we introduce EVATok, a framework to produce Efficient Video Adaptive Tokenizers. Our framework estimates optimal token assignments for each video to achieve the best quality-cost trade-off, develops lightweight routers for fast prediction of these optimal assignments, and trains adaptive tokenizers that encode videos based on the assignments predicted by routers. We demonstrate that EVATok delivers substantial improvements in efficiency and overall quality for video reconstruction and downstream AR generation. Enhanced by our advanced training recipe that integrates video semantic encoders, EVATok achieves superior reconstruction and state-of-the-art class-to-video generation on UCF-101, with at least 24.4% savings in average token usage compared to the prior state-of-the-art LARP and our fixed-length baseline.

EVATok: Tokenização Adaptativa de Vídeos por Comprimento para Geração Visual Autorregressiva Eficiente

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Resumo

Support