Adaptação Probabilística de Modelos de Texto para Vídeo
Probabilistic Adaptation of Text-to-Video Models
June 2, 2023
Autores: Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel
cs.AI
Resumo
Modelos de texto-para-vídeo de grande escala treinados com dados da internet demonstraram capacidades excepcionais na geração de vídeos de alta fidelidade a partir de descrições textuais arbitrárias. No entanto, adaptar esses modelos para tarefas com dados específicos de domínio limitados, como animação ou vídeos de robótica, representa um desafio computacional significativo, uma vez que o ajuste fino de um modelo grande pré-treinado pode ser proibitivamente caro. Inspirados pela forma como um componente pequeno e modificável (por exemplo, prompts, prefix-tuning) pode adaptar um modelo de linguagem grande para realizar novas tarefas sem exigir acesso aos pesos do modelo, investigamos como adaptar um modelo grande pré-treinado de texto-para-vídeo a uma variedade de domínios e tarefas subsequentes sem ajuste fino. Para responder a essa questão, propomos o Video Adapter, que aproveita a função de pontuação de um grande modelo de difusão de vídeo pré-treinado como um prior probabilístico para guiar a geração de um pequeno modelo de vídeo específico para a tarefa. Nossos experimentos mostram que o Video Adapter é capaz de incorporar o amplo conhecimento e preservar a alta fidelidade de um grande modelo de vídeo pré-treinado em um pequeno modelo de vídeo específico para a tarefa, que é capaz de gerar vídeos de alta qualidade, porém especializados, em uma variedade de tarefas, como animação, modelagem egocêntrica e modelagem de dados de robótica simulados e do mundo real. Mais vídeos podem ser encontrados no site https://video-adapter.github.io/.
English
Large text-to-video models trained on internet-scale data have demonstrated
exceptional capabilities in generating high-fidelity videos from arbitrary
textual descriptions. However, adapting these models to tasks with limited
domain-specific data, such as animation or robotics videos, poses a significant
computational challenge, since finetuning a pretrained large model can be
prohibitively expensive. Inspired by how a small modifiable component (e.g.,
prompts, prefix-tuning) can adapt a large language model to perform new tasks
without requiring access to the model weights, we investigate how to adapt a
large pretrained text-to-video model to a variety of downstream domains and
tasks without finetuning. In answering this question, we propose Video Adapter,
which leverages the score function of a large pretrained video diffusion model
as a probabilistic prior to guide the generation of a task-specific small video
model. Our experiments show that Video Adapter is capable of incorporating the
broad knowledge and preserving the high fidelity of a large pretrained video
model in a task-specific small video model that is able to generate
high-quality yet specialized videos on a variety of tasks such as animation,
egocentric modeling, and modeling of simulated and real-world robotics data.
More videos can be found on the website https://video-adapter.github.io/.