Divot: Диффузия обеспечивает функционирование видео-токенизатора для понимания и генерации.
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
December 5, 2024
Авторы: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI
Аннотация
В последние годы наблюдается значительный рост интереса к объединению понимания и генерации изображений в рамках больших языковых моделей (LLM). Этот растущий интерес побудил нас исследовать расширение этого объединения на видео. Основное препятствие заключается в разработке универсального видео-токенизатора, который бы учитывал как пространственные характеристики, так и временные динамики видео для получения представлений для LLM, а эти представления могли бы быть декодированы в реалистичные видеоролики для возможности генерации видео. В данной работе мы представляем Divot, Токенизатор Видео на Основе Диффузии, который использует процесс диффузии для обучения представлений видео методом самообучения. Мы полагаем, что если модель диффузии видео может эффективно устранять шум видеороликов, принимая признаки видео-токенизатора в качестве условия, то токенизатор успешно захватил надежную пространственную и временную информацию. Кроме того, модель диффузии видео по своей сути действует как де-токенизатор, декодируя видеоролики из их представлений. На основе токенизатора Divot мы представляем Divot-Vicuna через авторегрессию видео-в-текст и генерацию текста-в-видео, моделируя распределения непрерывных признаков Divot смесью гауссовских моделей. Экспериментальные результаты показывают, что наш диффузионный видео-токенизатор, интегрированный с предварительно обученной LLM, достигает конкурентоспособной производительности на различных бенчмарках по пониманию и генерации видео. Инструкция, настроенная на Divot-Vicuna, также превосходит в рассказах о видео, генерируя переплетенные повествования и соответствующие видеоролики.
English
In recent years, there has been a significant surge of interest in unifying
image comprehension and generation within Large Language Models (LLMs). This
growing interest has prompted us to explore extending this unification to
videos. The core challenge lies in developing a versatile video tokenizer that
captures both the spatial characteristics and temporal dynamics of videos to
obtain representations for LLMs, and the representations can be further decoded
into realistic video clips to enable video generation. In this work, we
introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the
diffusion process for self-supervised video representation learning. We posit
that if a video diffusion model can effectively de-noise video clips by taking
the features of a video tokenizer as the condition, then the tokenizer has
successfully captured robust spatial and temporal information. Additionally,
the video diffusion model inherently functions as a de-tokenizer, decoding
videos from their representations. Building upon the Divot tokenizer, we
present Divot-Vicuna through video-to-text autoregression and text-to-video
generation by modeling the distributions of continuous-valued Divot features
with a Gaussian Mixture Model. Experimental results demonstrate that our
diffusion-based video tokenizer, when integrated with a pre-trained LLM,
achieves competitive performance across various video comprehension and
generation benchmarks. The instruction tuned Divot-Vicuna also excels in video
storytelling, generating interleaved narratives and corresponding videos.