Adaptación probabilística de modelos de texto a video
Probabilistic Adaptation of Text-to-Video Models
June 2, 2023
Autores: Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel
cs.AI
Resumen
Los grandes modelos de texto a video entrenados con datos a escala de internet han demostrado capacidades excepcionales para generar videos de alta fidelidad a partir de descripciones textuales arbitrarias. Sin embargo, adaptar estos modelos a tareas con datos específicos de dominio limitados, como animación o videos de robótica, presenta un desafío computacional significativo, ya que el ajuste fino de un modelo grande preentrenado puede ser prohibitivamente costoso. Inspirados por cómo un componente pequeño modificable (por ejemplo, prompts, ajuste de prefijos) puede adaptar un modelo de lenguaje grande para realizar nuevas tareas sin necesidad de acceder a los pesos del modelo, investigamos cómo adaptar un modelo grande preentrenado de texto a video a una variedad de dominios y tareas descendentes sin ajuste fino. Para responder a esta pregunta, proponemos Video Adapter, que aprovecha la función de puntuación de un gran modelo de difusión de video preentrenado como un prior probabilístico para guiar la generación de un modelo de video pequeño específico de la tarea. Nuestros experimentos muestran que Video Adapter es capaz de incorporar el conocimiento amplio y preservar la alta fidelidad de un gran modelo de video preentrenado en un modelo de video pequeño específico de la tarea, que puede generar videos de alta calidad pero especializados en una variedad de tareas como animación, modelado egocéntrico y modelado de datos de robótica simulados y del mundo real. Más videos se pueden encontrar en el sitio web https://video-adapter.github.io/.
English
Large text-to-video models trained on internet-scale data have demonstrated
exceptional capabilities in generating high-fidelity videos from arbitrary
textual descriptions. However, adapting these models to tasks with limited
domain-specific data, such as animation or robotics videos, poses a significant
computational challenge, since finetuning a pretrained large model can be
prohibitively expensive. Inspired by how a small modifiable component (e.g.,
prompts, prefix-tuning) can adapt a large language model to perform new tasks
without requiring access to the model weights, we investigate how to adapt a
large pretrained text-to-video model to a variety of downstream domains and
tasks without finetuning. In answering this question, we propose Video Adapter,
which leverages the score function of a large pretrained video diffusion model
as a probabilistic prior to guide the generation of a task-specific small video
model. Our experiments show that Video Adapter is capable of incorporating the
broad knowledge and preserving the high fidelity of a large pretrained video
model in a task-specific small video model that is able to generate
high-quality yet specialized videos on a variety of tasks such as animation,
egocentric modeling, and modeling of simulated and real-world robotics data.
More videos can be found on the website https://video-adapter.github.io/.