VideoFlexTok: Tokenizzazione Video Coarse-to-Fine a Lunghezza Flessibile

Abstract

I tokenizzatori visivi mappano i pixel grezzi ad alta dimensionalità in una rappresentazione compressa per la modellizzazione a valle. Oltre alla compressione, i tokenizzatori determinano quali informazioni vengono preservate e come sono organizzate. Un approccio standard de facto per la tokenizzazione video è rappresentare un video come una griglia spazio-temporale 3D di token, ognuno dei quali cattura le corrispondenti informazioni locali nel segnale originale. Ciò richiede che il modello a valle che consuma i token, ad esempio un modello text-to-video, impari a prevedere tutti i dettagli di basso livello "pixel per pixel" indipendentemente dalla complessità intrinseca del video, portando a un'elevata complessità di apprendimento. Presentiamo VideoFlexTok, che rappresenta i video con una sequenza a lunghezza variabile di token strutturata in modo coarse-to-fine – dove i primi token (emergenti) catturano informazioni astratte, come semantica e movimento, e i token successivi aggiungono dettagli granulari. Il decoder di flusso generativo consente ricostruzioni video realistiche da qualsiasi numero di token. Questa struttura rappresentativa permette di adattare il numero di token in base alle esigenze a valle e di codificare video più lunghi dei baseline a parità di budget. Valutiamo VideoFlexTok su task generativi class- e text-to-video e dimostriamo che porta a un addestramento più efficiente rispetto ai token a griglia 3D, ad esempio, raggiungendo una qualità di generazione comparabile (gFVD e ViCLIP Score) con un modello 5 volte più piccolo (1,1B vs 5,2B). Infine, dimostriamo come VideoFlexTok possa abilitare la generazione di video lunghi senza costi computazionali proibitivi, addestrando un modello text-to-video su video da 10 secondi e 81 frame con soli 672 token, 8 volte in meno rispetto a un tokenizer a griglia 3D comparabile.

English

Visual tokenizers map high-dimensional raw pixels into a compressed representation for downstream modeling. Beyond compression, tokenizers dictate what information is preserved and how it is organized. A de facto standard approach to video tokenization is to represent a video as a spatiotemporal 3D grid of tokens, each capturing the corresponding local information in the original signal. This requires the downstream model that consumes the tokens, e.g., a text-to-video model, to learn to predict all low-level details "pixel-by-pixel" irrespective of the video's inherent complexity, leading to high learning complexity. We present VideoFlexTok, which represents videos with a variable-length sequence of tokens structured in a coarse-to-fine manner -- where the first tokens (emergently) capture abstract information, such as semantics and motion, and later tokens add fine-grained details. The generative flow decoder enables realistic video reconstructions from any token count. This representation structure allows adapting the token count according to downstream needs and encoding videos longer than the baselines with the same budget. We evaluate VideoFlexTok on class- and text-to-video generative tasks and show that it leads to more efficient training compared to 3D grid tokens, e.g., achieving comparable generation quality (gFVD and ViCLIP Score) with a 5x smaller model (1.1B vs 5.2B). Finally, we demonstrate how VideoFlexTok can enable long video generation without prohibitive computational cost by training a text-to-video model on 10-second 81-frame videos with only 672 tokens, 8x fewer than a comparable 3D grid tokenizer.

VideoFlexTok: Tokenizzazione Video Coarse-to-Fine a Lunghezza Flessibile

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

Abstract

Support