ChatPaper.aiChatPaper

Tokenisation efficace de longues vidéos via la reconstruction de patchs basée sur la coordination

Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

November 22, 2024
Auteurs: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI

Résumé

La tokenisation efficace des vidéos reste un défi dans la formation de modèles de vision capables de traiter de longues vidéos. Une direction prometteuse consiste à développer un tokeniseur capable d'encoder de longs clips vidéo, car cela permettrait au tokeniseur de mieux exploiter la cohérence temporelle des vidéos pour la tokenisation. Cependant, l'entraînement des tokeniseurs existants sur de longues vidéos entraîne souvent un coût d'entraînement élevé car ils sont formés pour reconstruire tous les cadres en une seule fois. Dans cet article, nous présentons CoordTok, un tokeniseur vidéo qui apprend un mapping à partir de représentations basées sur les coordonnées vers les patchs correspondants des vidéos d'entrée, inspiré par les récents progrès dans les modèles génératifs 3D. En particulier, CoordTok code une vidéo en représentations triplanes factorisées et reconstruit des patchs correspondant à des coordonnées (x, y, t) échantillonnées de manière aléatoire. Cela permet d'entraîner de grands modèles de tokeniseur directement sur de longues vidéos sans nécessiter de ressources d'entraînement excessives. Nos expériences montrent que CoordTok peut réduire de manière drastique le nombre de jetons pour encoder de longs clips vidéo. Par exemple, CoordTok peut encoder une vidéo de 128 images avec une résolution de 128x128 en 1280 jetons, tandis que les références nécessitent 6144 ou 8192 jetons pour obtenir une qualité de reconstruction similaire. Nous montrons en outre que cette tokenisation efficace des vidéos permet un entraînement efficace en mémoire d'un transformateur de diffusion capable de générer 128 images en une seule fois.
English
Efficient tokenization of videos remains a challenge in training vision models that can process long videos. One promising direction is to develop a tokenizer that can encode long video clips, as it would enable the tokenizer to leverage the temporal coherence of videos better for tokenization. However, training existing tokenizers on long videos often incurs a huge training cost as they are trained to reconstruct all the frames at once. In this paper, we introduce CoordTok, a video tokenizer that learns a mapping from coordinate-based representations to the corresponding patches of input videos, inspired by recent advances in 3D generative models. In particular, CoordTok encodes a video into factorized triplane representations and reconstructs patches that correspond to randomly sampled (x,y,t) coordinates. This allows for training large tokenizer models directly on long videos without requiring excessive training resources. Our experiments show that CoordTok can drastically reduce the number of tokens for encoding long video clips. For instance, CoordTok can encode a 128-frame video with 128times128 resolution into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar reconstruction quality. We further show that this efficient video tokenization enables memory-efficient training of a diffusion transformer that can generate 128 frames at once.

Summary

AI-Generated Summary

PDF112November 25, 2024