Probabilistische aanpassing van tekst-naar-video-modellen
Probabilistic Adaptation of Text-to-Video Models
June 2, 2023
Auteurs: Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel
cs.AI
Samenvatting
Grote tekst-naar-video-modellen die getraind zijn op internet-schaal data hebben uitzonderlijke mogelijkheden getoond in het genereren van hoogwaardige video's vanuit willekeurige tekstuele beschrijvingen. Het aanpassen van deze modellen aan taken met beperkte domeinspecifieke data, zoals animatie of robotica-video's, vormt echter een aanzienlijke computationele uitdaging, aangezien het finetunen van een voorgetraind groot model buitensporig duur kan zijn. Geïnspireerd door hoe een kleine aanpasbare component (bijvoorbeeld prompts, prefix-tuning) een groot taalmodel kan aanpassen om nieuwe taken uit te voeren zonder toegang tot de modelgewichten te vereisen, onderzoeken we hoe een groot voorgetraind tekst-naar-video-model kan worden aangepast aan een verscheidenheid aan downstream domeinen en taken zonder finetuning. Bij het beantwoorden van deze vraag stellen we Video Adapter voor, dat de scorefunctie van een groot voorgetraind video-diffusiemodel gebruikt als een probabilistische prior om de generatie van een taakspecifiek klein videomodel te begeleiden. Onze experimenten tonen aan dat Video Adapter in staat is om de brede kennis te integreren en de hoge kwaliteit van een groot voorgetraind videomodel te behouden in een taakspecifiek klein videomodel dat hoogwaardige maar gespecialiseerde video's kan genereren voor een verscheidenheid aan taken, zoals animatie, egocentrische modellering, en modellering van gesimuleerde en echte robotica-data. Meer video's zijn te vinden op de website https://video-adapter.github.io/.
English
Large text-to-video models trained on internet-scale data have demonstrated
exceptional capabilities in generating high-fidelity videos from arbitrary
textual descriptions. However, adapting these models to tasks with limited
domain-specific data, such as animation or robotics videos, poses a significant
computational challenge, since finetuning a pretrained large model can be
prohibitively expensive. Inspired by how a small modifiable component (e.g.,
prompts, prefix-tuning) can adapt a large language model to perform new tasks
without requiring access to the model weights, we investigate how to adapt a
large pretrained text-to-video model to a variety of downstream domains and
tasks without finetuning. In answering this question, we propose Video Adapter,
which leverages the score function of a large pretrained video diffusion model
as a probabilistic prior to guide the generation of a task-specific small video
model. Our experiments show that Video Adapter is capable of incorporating the
broad knowledge and preserving the high fidelity of a large pretrained video
model in a task-specific small video model that is able to generate
high-quality yet specialized videos on a variety of tasks such as animation,
egocentric modeling, and modeling of simulated and real-world robotics data.
More videos can be found on the website https://video-adapter.github.io/.