Probabilistische aanpassing van tekst-naar-video-modellen

Samenvatting

Grote tekst-naar-video-modellen die getraind zijn op internet-schaal data hebben uitzonderlijke mogelijkheden getoond in het genereren van hoogwaardige video's vanuit willekeurige tekstuele beschrijvingen. Het aanpassen van deze modellen aan taken met beperkte domeinspecifieke data, zoals animatie of robotica-video's, vormt echter een aanzienlijke computationele uitdaging, aangezien het finetunen van een voorgetraind groot model buitensporig duur kan zijn. Geïnspireerd door hoe een kleine aanpasbare component (bijvoorbeeld prompts, prefix-tuning) een groot taalmodel kan aanpassen om nieuwe taken uit te voeren zonder toegang tot de modelgewichten te vereisen, onderzoeken we hoe een groot voorgetraind tekst-naar-video-model kan worden aangepast aan een verscheidenheid aan downstream domeinen en taken zonder finetuning. Bij het beantwoorden van deze vraag stellen we Video Adapter voor, dat de scorefunctie van een groot voorgetraind video-diffusiemodel gebruikt als een probabilistische prior om de generatie van een taakspecifiek klein videomodel te begeleiden. Onze experimenten tonen aan dat Video Adapter in staat is om de brede kennis te integreren en de hoge kwaliteit van een groot voorgetraind videomodel te behouden in een taakspecifiek klein videomodel dat hoogwaardige maar gespecialiseerde video's kan genereren voor een verscheidenheid aan taken, zoals animatie, egocentrische modellering, en modellering van gesimuleerde en echte robotica-data. Meer video's zijn te vinden op de website https://video-adapter.github.io/.

English

Large text-to-video models trained on internet-scale data have demonstrated exceptional capabilities in generating high-fidelity videos from arbitrary textual descriptions. However, adapting these models to tasks with limited domain-specific data, such as animation or robotics videos, poses a significant computational challenge, since finetuning a pretrained large model can be prohibitively expensive. Inspired by how a small modifiable component (e.g., prompts, prefix-tuning) can adapt a large language model to perform new tasks without requiring access to the model weights, we investigate how to adapt a large pretrained text-to-video model to a variety of downstream domains and tasks without finetuning. In answering this question, we propose Video Adapter, which leverages the score function of a large pretrained video diffusion model as a probabilistic prior to guide the generation of a task-specific small video model. Our experiments show that Video Adapter is capable of incorporating the broad knowledge and preserving the high fidelity of a large pretrained video model in a task-specific small video model that is able to generate high-quality yet specialized videos on a variety of tasks such as animation, egocentric modeling, and modeling of simulated and real-world robotics data. More videos can be found on the website https://video-adapter.github.io/.

Probabilistische aanpassing van tekst-naar-video-modellen

Probabilistic Adaptation of Text-to-Video Models

Samenvatting

Support