Вероятностная адаптация моделей преобразования текста в видео
Probabilistic Adaptation of Text-to-Video Models
June 2, 2023
Авторы: Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel
cs.AI
Аннотация
Крупные модели преобразования текста в видео, обученные на данных интернет-масштаба, продемонстрировали выдающиеся способности в генерации высококачественных видео на основе произвольных текстовых описаний. Однако адаптация этих моделей к задачам с ограниченными доменно-специфичными данными, такими как анимация или видео робототехники, представляет собой значительную вычислительную проблему, поскольку тонкая настройка предобученной крупной модели может быть чрезмерно затратной. Вдохновленные тем, как небольшой изменяемый компонент (например, промпты, префиксная настройка) может адаптировать крупную языковую модель для выполнения новых задач без необходимости доступа к весам модели, мы исследуем, как адаптировать крупную предобученную модель преобразования текста в видео к различным доменам и задачам без тонкой настройки. В ответ на этот вопрос мы предлагаем Video Adapter, который использует функцию оценки крупной предобученной модели диффузии видео как вероятностный априор для управления генерацией небольшой видео-модели, специфичной для задачи. Наши эксперименты показывают, что Video Adapter способен интегрировать обширные знания и сохранять высокое качество крупной предобученной видео-модели в небольшой видео-модели, которая может генерировать высококачественные, но специализированные видео для различных задач, таких как анимация, эгоцентрическое моделирование и моделирование данных симуляций и реальной робототехники. Дополнительные видео можно найти на сайте https://video-adapter.github.io/.
English
Large text-to-video models trained on internet-scale data have demonstrated
exceptional capabilities in generating high-fidelity videos from arbitrary
textual descriptions. However, adapting these models to tasks with limited
domain-specific data, such as animation or robotics videos, poses a significant
computational challenge, since finetuning a pretrained large model can be
prohibitively expensive. Inspired by how a small modifiable component (e.g.,
prompts, prefix-tuning) can adapt a large language model to perform new tasks
without requiring access to the model weights, we investigate how to adapt a
large pretrained text-to-video model to a variety of downstream domains and
tasks without finetuning. In answering this question, we propose Video Adapter,
which leverages the score function of a large pretrained video diffusion model
as a probabilistic prior to guide the generation of a task-specific small video
model. Our experiments show that Video Adapter is capable of incorporating the
broad knowledge and preserving the high fidelity of a large pretrained video
model in a task-specific small video model that is able to generate
high-quality yet specialized videos on a variety of tasks such as animation,
egocentric modeling, and modeling of simulated and real-world robotics data.
More videos can be found on the website https://video-adapter.github.io/.