Effiziente Tokenisierung langer Videos durch Patch-basierte Koordinatenrekonstruktion.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction
November 22, 2024
Autoren: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI
Zusammenfassung
Die effiziente Tokenisierung von Videos bleibt eine Herausforderung beim Training von Bildverarbeitungsmodellen, die lange Videos verarbeiten können. Eine vielversprechende Richtung besteht darin, einen Tokenizer zu entwickeln, der lange Videoclips kodieren kann, da dies dem Tokenizer ermöglichen würde, die zeitliche Kohärenz von Videos besser für die Tokenisierung zu nutzen. Das Training bestehender Tokenizer auf langen Videos verursacht jedoch oft hohe Trainingskosten, da sie darauf trainiert sind, alle Frames auf einmal zu rekonstruieren. In diesem Papier stellen wir CoordTok vor, einen Video-Tokenizer, der eine Zuordnung von koordinatenbasierten Darstellungen zu den entsprechenden Patches von Eingabevideos lernt, inspiriert von den neuesten Fortschritten in 3D-generativen Modellen. Insbesondere kodiert CoordTok ein Video in faktorisierte Dreiebenen-Darstellungen und rekonstruiert Patches, die zufällig ausgewählten (x, y, t)-Koordinaten entsprechen. Dies ermöglicht das Training großer Tokenizer-Modelle direkt auf langen Videos, ohne übermäßige Trainingsressourcen zu benötigen. Unsere Experimente zeigen, dass CoordTok die Anzahl der Tokens zur Kodierung langer Videoclips drastisch reduzieren kann. Zum Beispiel kann CoordTok ein 128-Frames-Video mit einer Auflösung von 128 mal 128 in 1280 Tokens kodieren, während Baselines 6144 oder 8192 Tokens benötigen, um eine ähnliche Rekonstruktionsqualität zu erreichen. Wir zeigen weiterhin, dass diese effiziente Video-Tokenisierung ein speichereffizientes Training eines Diffusions-Transformators ermöglicht, der gleichzeitig 128 Frames generieren kann.
English
Efficient tokenization of videos remains a challenge in training vision
models that can process long videos. One promising direction is to develop a
tokenizer that can encode long video clips, as it would enable the tokenizer to
leverage the temporal coherence of videos better for tokenization. However,
training existing tokenizers on long videos often incurs a huge training cost
as they are trained to reconstruct all the frames at once. In this paper, we
introduce CoordTok, a video tokenizer that learns a mapping from
coordinate-based representations to the corresponding patches of input videos,
inspired by recent advances in 3D generative models. In particular, CoordTok
encodes a video into factorized triplane representations and reconstructs
patches that correspond to randomly sampled (x,y,t) coordinates. This allows
for training large tokenizer models directly on long videos without requiring
excessive training resources. Our experiments show that CoordTok can
drastically reduce the number of tokens for encoding long video clips. For
instance, CoordTok can encode a 128-frame video with 128times128 resolution
into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar
reconstruction quality. We further show that this efficient video tokenization
enables memory-efficient training of a diffusion transformer that can generate
128 frames at once.Summary
AI-Generated Summary