Adaptação Probabilística de Modelos de Texto para Vídeo

Resumo

Modelos de texto-para-vídeo de grande escala treinados com dados da internet demonstraram capacidades excepcionais na geração de vídeos de alta fidelidade a partir de descrições textuais arbitrárias. No entanto, adaptar esses modelos para tarefas com dados específicos de domínio limitados, como animação ou vídeos de robótica, representa um desafio computacional significativo, uma vez que o ajuste fino de um modelo grande pré-treinado pode ser proibitivamente caro. Inspirados pela forma como um componente pequeno e modificável (por exemplo, prompts, prefix-tuning) pode adaptar um modelo de linguagem grande para realizar novas tarefas sem exigir acesso aos pesos do modelo, investigamos como adaptar um modelo grande pré-treinado de texto-para-vídeo a uma variedade de domínios e tarefas subsequentes sem ajuste fino. Para responder a essa questão, propomos o Video Adapter, que aproveita a função de pontuação de um grande modelo de difusão de vídeo pré-treinado como um prior probabilístico para guiar a geração de um pequeno modelo de vídeo específico para a tarefa. Nossos experimentos mostram que o Video Adapter é capaz de incorporar o amplo conhecimento e preservar a alta fidelidade de um grande modelo de vídeo pré-treinado em um pequeno modelo de vídeo específico para a tarefa, que é capaz de gerar vídeos de alta qualidade, porém especializados, em uma variedade de tarefas, como animação, modelagem egocêntrica e modelagem de dados de robótica simulados e do mundo real. Mais vídeos podem ser encontrados no site https://video-adapter.github.io/.

English

Large text-to-video models trained on internet-scale data have demonstrated exceptional capabilities in generating high-fidelity videos from arbitrary textual descriptions. However, adapting these models to tasks with limited domain-specific data, such as animation or robotics videos, poses a significant computational challenge, since finetuning a pretrained large model can be prohibitively expensive. Inspired by how a small modifiable component (e.g., prompts, prefix-tuning) can adapt a large language model to perform new tasks without requiring access to the model weights, we investigate how to adapt a large pretrained text-to-video model to a variety of downstream domains and tasks without finetuning. In answering this question, we propose Video Adapter, which leverages the score function of a large pretrained video diffusion model as a probabilistic prior to guide the generation of a task-specific small video model. Our experiments show that Video Adapter is capable of incorporating the broad knowledge and preserving the high fidelity of a large pretrained video model in a task-specific small video model that is able to generate high-quality yet specialized videos on a variety of tasks such as animation, egocentric modeling, and modeling of simulated and real-world robotics data. More videos can be found on the website https://video-adapter.github.io/.

Adaptação Probabilística de Modelos de Texto para Vídeo

Probabilistic Adaptation of Text-to-Video Models

Resumo

Support