ChatPaper.aiChatPaper

Divot: Difusão Potencializa o Tokenizador de Vídeo para Compreensão e Geração

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

December 5, 2024
Autores: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI

Resumo

Nos últimos anos, houve um aumento significativo de interesse em unificar a compreensão e geração de imagens em Grandes Modelos de Linguagem (LLMs). Esse crescente interesse nos motivou a explorar a extensão dessa unificação para vídeos. O desafio central reside no desenvolvimento de um tokenizador de vídeo versátil que capture tanto as características espaciais quanto a dinâmica temporal dos vídeos para obter representações para LLMs, e essas representações podem ser posteriormente decodificadas em clipes de vídeo realistas para possibilitar a geração de vídeos. Neste trabalho, apresentamos o Divot, um Tokenizador de Vídeo Alimentado por Difusão, que aproveita o processo de difusão para aprendizado de representação de vídeo auto-supervisionado. Sustentamos que se um modelo de difusão de vídeo puder efetivamente remover ruídos de clipes de vídeo ao considerar as características de um tokenizador de vídeo como condição, então o tokenizador capturou com sucesso informações espaciais e temporais robustas. Além disso, o modelo de difusão de vídeo funciona inerentemente como um decodificador, decodificando vídeos a partir de suas representações. Construindo sobre o tokenizador Divot, apresentamos o Divot-Vicuna através de autoregressão de vídeo para texto e geração de texto para vídeo, modelando as distribuições de características Divot contínuas com um Modelo de Mistura Gaussiano. Resultados experimentais demonstram que nosso tokenizador de vídeo baseado em difusão, quando integrado a um LLM pré-treinado, alcança desempenho competitivo em diversos benchmarks de compreensão e geração de vídeo. O Divot-Vicuna ajustado para instrução também se destaca em contar histórias em vídeo, gerando narrativas entrelaçadas e vídeos correspondentes.
English
In recent years, there has been a significant surge of interest in unifying image comprehension and generation within Large Language Models (LLMs). This growing interest has prompted us to explore extending this unification to videos. The core challenge lies in developing a versatile video tokenizer that captures both the spatial characteristics and temporal dynamics of videos to obtain representations for LLMs, and the representations can be further decoded into realistic video clips to enable video generation. In this work, we introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the diffusion process for self-supervised video representation learning. We posit that if a video diffusion model can effectively de-noise video clips by taking the features of a video tokenizer as the condition, then the tokenizer has successfully captured robust spatial and temporal information. Additionally, the video diffusion model inherently functions as a de-tokenizer, decoding videos from their representations. Building upon the Divot tokenizer, we present Divot-Vicuna through video-to-text autoregression and text-to-video generation by modeling the distributions of continuous-valued Divot features with a Gaussian Mixture Model. Experimental results demonstrate that our diffusion-based video tokenizer, when integrated with a pre-trained LLM, achieves competitive performance across various video comprehension and generation benchmarks. The instruction tuned Divot-Vicuna also excels in video storytelling, generating interleaved narratives and corresponding videos.

Summary

AI-Generated Summary

PDF162December 10, 2024