Эффективная токенизация длинного видео с использованием координатно-основанной восстановления патчей.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction
November 22, 2024
Авторы: Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
cs.AI
Аннотация
Эффективная токенизация видео остается вызовом при обучении моделей зрения, способных обрабатывать длинные видеоролики. Одним из перспективных направлений является разработка токенизатора, способного кодировать длинные видеоролики, поскольку это позволит токенизатору лучше использовать временную согласованность видео для токенизации. Однако обучение существующих токенизаторов на длинных видеороликах часто сопряжено с огромными затратами на обучение, поскольку они обучаются восстанавливать все кадры сразу. В данной статье мы представляем CoordTok, видео-токенизатор, который изучает отображение от координатных представлений к соответствующим фрагментам входных видеороликов, вдохновленный последними достижениями в области 3D генеративных моделей. В частности, CoordTok кодирует видео в факторизованные трехплоские представления и восстанавливает фрагменты, соответствующие случайно выбранным координатам (x, y, t). Это позволяет обучать крупные модели токенизаторов напрямую на длинных видеороликах без необходимости излишних ресурсов для обучения. Наши эксперименты показывают, что CoordTok может значительно сократить количество токенов для кодирования длинных видеороликов. Например, CoordTok может закодировать видео из 128 кадров с разрешением 128 на 128 в 1280 токенов, в то время как базовые модели требуют 6144 или 8192 токена для достижения аналогичного качества восстановления. Мы также показываем, что эта эффективная токенизация видео позволяет обучать память-эффективный тренировочный диффузионный трансформер, который может генерировать 128 кадров сразу.
English
Efficient tokenization of videos remains a challenge in training vision
models that can process long videos. One promising direction is to develop a
tokenizer that can encode long video clips, as it would enable the tokenizer to
leverage the temporal coherence of videos better for tokenization. However,
training existing tokenizers on long videos often incurs a huge training cost
as they are trained to reconstruct all the frames at once. In this paper, we
introduce CoordTok, a video tokenizer that learns a mapping from
coordinate-based representations to the corresponding patches of input videos,
inspired by recent advances in 3D generative models. In particular, CoordTok
encodes a video into factorized triplane representations and reconstructs
patches that correspond to randomly sampled (x,y,t) coordinates. This allows
for training large tokenizer models directly on long videos without requiring
excessive training resources. Our experiments show that CoordTok can
drastically reduce the number of tokens for encoding long video clips. For
instance, CoordTok can encode a 128-frame video with 128times128 resolution
into 1280 tokens, while baselines need 6144 or 8192 tokens to achieve similar
reconstruction quality. We further show that this efficient video tokenization
enables memory-efficient training of a diffusion transformer that can generate
128 frames at once.Summary
AI-Generated Summary