Adattamento probabilistico dei modelli testo-video
Probabilistic Adaptation of Text-to-Video Models
June 2, 2023
Autori: Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel
cs.AI
Abstract
I modelli di testo-video su larga scala addestrati su dati di dimensioni internet hanno dimostrato capacità eccezionali nella generazione di video ad alta fedeltà a partire da descrizioni testuali arbitrarie. Tuttavia, adattare questi modelli a compiti con dati specifici di dominio limitati, come video di animazione o robotica, rappresenta una sfida computazionale significativa, poiché il fine-tuning di un modello pre-addestrato di grandi dimensioni può essere proibitivamente costoso. Ispirati da come un piccolo componente modificabile (ad esempio, prompt, prefix-tuning) può adattare un modello linguistico di grandi dimensioni per eseguire nuovi compiti senza richiedere l'accesso ai pesi del modello, abbiamo studiato come adattare un modello pre-addestrato di testo-video di grandi dimensioni a una varietà di domini e compiti downstream senza fine-tuning. Nel rispondere a questa domanda, proponiamo Video Adapter, che sfrutta la funzione di punteggio di un modello di diffusione video pre-addestrato di grandi dimensioni come prior probabilistico per guidare la generazione di un piccolo modello video specifico per il compito. I nostri esperimenti mostrano che Video Adapter è in grado di incorporare la vasta conoscenza e preservare l'alta fedeltà di un modello video pre-addestrato di grandi dimensioni in un piccolo modello video specifico per il compito, che è in grado di generare video di alta qualità ma specializzati su una varietà di compiti come animazione, modellazione egocentrica e modellazione di dati robotici simulati e del mondo reale. Altri video sono disponibili sul sito https://video-adapter.github.io/.
English
Large text-to-video models trained on internet-scale data have demonstrated
exceptional capabilities in generating high-fidelity videos from arbitrary
textual descriptions. However, adapting these models to tasks with limited
domain-specific data, such as animation or robotics videos, poses a significant
computational challenge, since finetuning a pretrained large model can be
prohibitively expensive. Inspired by how a small modifiable component (e.g.,
prompts, prefix-tuning) can adapt a large language model to perform new tasks
without requiring access to the model weights, we investigate how to adapt a
large pretrained text-to-video model to a variety of downstream domains and
tasks without finetuning. In answering this question, we propose Video Adapter,
which leverages the score function of a large pretrained video diffusion model
as a probabilistic prior to guide the generation of a task-specific small video
model. Our experiments show that Video Adapter is capable of incorporating the
broad knowledge and preserving the high fidelity of a large pretrained video
model in a task-specific small video model that is able to generate
high-quality yet specialized videos on a variety of tasks such as animation,
egocentric modeling, and modeling of simulated and real-world robotics data.
More videos can be found on the website https://video-adapter.github.io/.