Adaptación probabilística de modelos de texto a video

Resumen

Los grandes modelos de texto a video entrenados con datos a escala de internet han demostrado capacidades excepcionales para generar videos de alta fidelidad a partir de descripciones textuales arbitrarias. Sin embargo, adaptar estos modelos a tareas con datos específicos de dominio limitados, como animación o videos de robótica, presenta un desafío computacional significativo, ya que el ajuste fino de un modelo grande preentrenado puede ser prohibitivamente costoso. Inspirados por cómo un componente pequeño modificable (por ejemplo, prompts, ajuste de prefijos) puede adaptar un modelo de lenguaje grande para realizar nuevas tareas sin necesidad de acceder a los pesos del modelo, investigamos cómo adaptar un modelo grande preentrenado de texto a video a una variedad de dominios y tareas descendentes sin ajuste fino. Para responder a esta pregunta, proponemos Video Adapter, que aprovecha la función de puntuación de un gran modelo de difusión de video preentrenado como un prior probabilístico para guiar la generación de un modelo de video pequeño específico de la tarea. Nuestros experimentos muestran que Video Adapter es capaz de incorporar el conocimiento amplio y preservar la alta fidelidad de un gran modelo de video preentrenado en un modelo de video pequeño específico de la tarea, que puede generar videos de alta calidad pero especializados en una variedad de tareas como animación, modelado egocéntrico y modelado de datos de robótica simulados y del mundo real. Más videos se pueden encontrar en el sitio web https://video-adapter.github.io/.

English

Large text-to-video models trained on internet-scale data have demonstrated exceptional capabilities in generating high-fidelity videos from arbitrary textual descriptions. However, adapting these models to tasks with limited domain-specific data, such as animation or robotics videos, poses a significant computational challenge, since finetuning a pretrained large model can be prohibitively expensive. Inspired by how a small modifiable component (e.g., prompts, prefix-tuning) can adapt a large language model to perform new tasks without requiring access to the model weights, we investigate how to adapt a large pretrained text-to-video model to a variety of downstream domains and tasks without finetuning. In answering this question, we propose Video Adapter, which leverages the score function of a large pretrained video diffusion model as a probabilistic prior to guide the generation of a task-specific small video model. Our experiments show that Video Adapter is capable of incorporating the broad knowledge and preserving the high fidelity of a large pretrained video model in a task-specific small video model that is able to generate high-quality yet specialized videos on a variety of tasks such as animation, egocentric modeling, and modeling of simulated and real-world robotics data. More videos can be found on the website https://video-adapter.github.io/.

Adaptación probabilística de modelos de texto a video

Probabilistic Adaptation of Text-to-Video Models

Resumen

Support