VideoFlexTok : Tokenisation Vidéo à Longueur Flexible de Grossière à Fine

Résumé

Les tokeniseurs visuels transforment les pixels bruts de haute dimension en une représentation compressée pour la modélisation en aval. Au-delà de la compression, les tokeniseurs déterminent quelles informations sont préservées et comment elles sont organisées. L'approche standard de facto pour la tokenisation vidéo consiste à représenter une vidéo par une grille spatiotemporelle 3D de tokens, chacun capturant l'information locale correspondante dans le signal original. Cela oblige le modèle en aval qui consomme les tokens, par exemple un modèle texte-à-vidéo, à apprendre à prédire tous les détails de bas niveau "pixel par pixel", indépendamment de la complexité inhérente de la vidéo, ce qui entraîne une grande complexité d'apprentissage. Nous présentons VideoFlexTok, qui représente les vidéos par une séquence de longueur variable de tokens structurée de manière grossière à fine : les premiers tokens capturent (émergent) des informations abstraites, telles que la sémantique et le mouvement, tandis que les tokens suivants ajoutent des détails granulaires. Le décodeur de flux génératif permet des reconstructions vidéo réalistes à partir de n'importe quel nombre de tokens. Cette structure de représentation permet d'adapter le nombre de tokens selon les besoins en aval et d'encoder des vidéos plus longues que les références avec le même budget. Nous évaluons VideoFlexTok sur des tâches génératives de classe-à-vidéo et texte-à-vidéo et montrons qu'il permet un entraînement plus efficace que les tokens en grille 3D, par exemple en atteignant une qualité de génération comparable (gFVD et score ViCLIP) avec un modèle 5 fois plus petit (1,1 Md contre 5,2 Md). Enfin, nous démontrons comment VideoFlexTok peut permettre la génération de vidéos longues sans coût computationnel prohibitif en entraînant un modèle texte-à-vidéo sur des vidéos de 10 secondes et 81 images avec seulement 672 tokens, soit 8 fois moins qu'un tokeniseur en grille 3D comparable.

English

Visual tokenizers map high-dimensional raw pixels into a compressed representation for downstream modeling. Beyond compression, tokenizers dictate what information is preserved and how it is organized. A de facto standard approach to video tokenization is to represent a video as a spatiotemporal 3D grid of tokens, each capturing the corresponding local information in the original signal. This requires the downstream model that consumes the tokens, e.g., a text-to-video model, to learn to predict all low-level details "pixel-by-pixel" irrespective of the video's inherent complexity, leading to high learning complexity. We present VideoFlexTok, which represents videos with a variable-length sequence of tokens structured in a coarse-to-fine manner -- where the first tokens (emergently) capture abstract information, such as semantics and motion, and later tokens add fine-grained details. The generative flow decoder enables realistic video reconstructions from any token count. This representation structure allows adapting the token count according to downstream needs and encoding videos longer than the baselines with the same budget. We evaluate VideoFlexTok on class- and text-to-video generative tasks and show that it leads to more efficient training compared to 3D grid tokens, e.g., achieving comparable generation quality (gFVD and ViCLIP Score) with a 5x smaller model (1.1B vs 5.2B). Finally, we demonstrate how VideoFlexTok can enable long video generation without prohibitive computational cost by training a text-to-video model on 10-second 81-frame videos with only 672 tokens, 8x fewer than a comparable 3D grid tokenizer.

VideoFlexTok : Tokenisation Vidéo à Longueur Flexible de Grossière à Fine

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

Résumé

Support