Probabilistische Anpassung von Text-zu-Video-Modellen
Probabilistic Adaptation of Text-to-Video Models
June 2, 2023
Autoren: Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel
cs.AI
Zusammenfassung
Große Text-zu-Video-Modelle, die mit internetweiten Daten trainiert wurden, haben außergewöhnliche Fähigkeiten bei der Erstellung hochwertiger Videos aus beliebigen Textbeschreibungen gezeigt. Die Anpassung dieser Modelle auf Aufgaben mit begrenzten domänenspezifischen Daten, wie Animationen oder Robotik-Videos, stellt jedoch eine erhebliche rechnerische Herausforderung dar, da das Feinabstimmen eines vortrainierten großen Modells oft unverhältnismäßig teuer ist. Inspiriert davon, wie eine kleine anpassbare Komponente (z. B. Prompts, Prefix-Tuning) ein großes Sprachmodell an neue Aufgaben anpassen kann, ohne Zugriff auf die Modellgewichte zu benötigen, untersuchen wir, wie ein großes vortrainiertes Text-zu-Video-Modell an verschiedene nachgelagerte Domänen und Aufgaben angepasst werden kann, ohne es feinabzustimmen. Zur Beantwortung dieser Frage schlagen wir Video Adapter vor, der die Score-Funktion eines großen vortrainierten Video-Diffusionsmodells als probabilistische Priorität nutzt, um die Erstellung eines aufgaben-spezifischen kleinen Videomodells zu leiten. Unsere Experimente zeigen, dass Video Adapter in der Lage ist, das breite Wissen und die hohe Qualität eines großen vortrainierten Videomodells in einem aufgaben-spezifischen kleinen Videomodell zu integrieren, das hochwertige, aber spezialisierte Videos für eine Vielzahl von Aufgaben wie Animation, egozentrische Modellierung sowie die Modellierung von simulierten und realen Robotikdaten erzeugen kann. Weitere Videos finden Sie auf der Website https://video-adapter.github.io/.
English
Large text-to-video models trained on internet-scale data have demonstrated
exceptional capabilities in generating high-fidelity videos from arbitrary
textual descriptions. However, adapting these models to tasks with limited
domain-specific data, such as animation or robotics videos, poses a significant
computational challenge, since finetuning a pretrained large model can be
prohibitively expensive. Inspired by how a small modifiable component (e.g.,
prompts, prefix-tuning) can adapt a large language model to perform new tasks
without requiring access to the model weights, we investigate how to adapt a
large pretrained text-to-video model to a variety of downstream domains and
tasks without finetuning. In answering this question, we propose Video Adapter,
which leverages the score function of a large pretrained video diffusion model
as a probabilistic prior to guide the generation of a task-specific small video
model. Our experiments show that Video Adapter is capable of incorporating the
broad knowledge and preserving the high fidelity of a large pretrained video
model in a task-specific small video model that is able to generate
high-quality yet specialized videos on a variety of tasks such as animation,
egocentric modeling, and modeling of simulated and real-world robotics data.
More videos can be found on the website https://video-adapter.github.io/.