VideoFlexTok: Tokenização de Vídeo de Grosseira a Fina com Comprimento Flexível

Resumo

Os tokenizadores visuais mapeiam pixels brutos de alta dimensão em uma representação compactada para modelagem subsequente. Além da compressão, os tokenizadores determinam quais informações são preservadas e como são organizadas. Uma abordagem padrão de fato para tokenização de vídeos é representar um vídeo como uma grade espaço-temporal 3D de tokens, cada um capturando a informação local correspondente no sinal original. Isso exige que o modelo subsequente que consome os tokens, por exemplo, um modelo de texto para vídeo, aprenda a prever todos os detalhes de baixo nível "pixel a pixel", independentemente da complexidade inerente do vídeo, levando a uma alta complexidade de aprendizado. Apresentamos o VideoFlexTok, que representa vídeos com uma sequência de comprimento variável de tokens estruturados de maneira hierárquica (do geral para o específico) – onde os primeiros tokens (emergencialmente) capturam informações abstratas, como semântica e movimento, e os tokens posteriores adicionam detalhes refinados. O decodificador de fluxo generativo permite reconstruções realistas de vídeo a partir de qualquer quantidade de tokens. Essa estrutura de representação permite adaptar a quantidade de tokens de acordo com as necessidades subsequentes e codificar vídeos mais longos do que as linhas de base com o mesmo orçamento. Avaliamos o VideoFlexTok em tarefas generativas de classe-para-vídeo e texto-para-vídeo e mostramos que ele leva a um treinamento mais eficiente em comparação com tokens de grade 3D, por exemplo, alcançando qualidade de geração comparável (gFVD e Pontuação ViCLIP) com um modelo 5 vezes menor (1,1B vs 5,2B). Por fim, demonstramos como o VideoFlexTok pode permitir a geração de vídeos longos sem custo computacional proibitivo, treinando um modelo de texto-para-vídeo em vídeos de 10 segundos e 81 quadros com apenas 672 tokens, 8 vezes menos do que um tokenizador de grade 3D comparável.

English

Visual tokenizers map high-dimensional raw pixels into a compressed representation for downstream modeling. Beyond compression, tokenizers dictate what information is preserved and how it is organized. A de facto standard approach to video tokenization is to represent a video as a spatiotemporal 3D grid of tokens, each capturing the corresponding local information in the original signal. This requires the downstream model that consumes the tokens, e.g., a text-to-video model, to learn to predict all low-level details "pixel-by-pixel" irrespective of the video's inherent complexity, leading to high learning complexity. We present VideoFlexTok, which represents videos with a variable-length sequence of tokens structured in a coarse-to-fine manner -- where the first tokens (emergently) capture abstract information, such as semantics and motion, and later tokens add fine-grained details. The generative flow decoder enables realistic video reconstructions from any token count. This representation structure allows adapting the token count according to downstream needs and encoding videos longer than the baselines with the same budget. We evaluate VideoFlexTok on class- and text-to-video generative tasks and show that it leads to more efficient training compared to 3D grid tokens, e.g., achieving comparable generation quality (gFVD and ViCLIP Score) with a 5x smaller model (1.1B vs 5.2B). Finally, we demonstrate how VideoFlexTok can enable long video generation without prohibitive computational cost by training a text-to-video model on 10-second 81-frame videos with only 672 tokens, 8x fewer than a comparable 3D grid tokenizer.

VideoFlexTok: Tokenização de Vídeo de Grosseira a Fina com Comprimento Flexível

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

Resumo

Support