Настройка движения в моделях диффузии для преобразования текста в видео

Аннотация

Мы представляем подход для расширения возможностей моделей генерации видео по текстовому описанию за счет добавления пользовательских движений, выходящих за рамки движений, представленных в исходных обучающих данных. Используя несколько видеосэмплов, демонстрирующих определенные движения в качестве входных данных, наш метод изучает и обобщает паттерны движений для разнообразных сценариев, заданных текстом. Наш вклад заключается в трех аспектах. Во-первых, для достижения результатов мы дообучаем существующую модель генерации видео по тексту, чтобы она научилась новому отображению между движением, представленным во входных примерах, и новым уникальным токеном. Чтобы избежать переобучения на новое пользовательское движение, мы предлагаем метод регуляризации на основе видео. Во-вторых, используя априорные знания о движениях в предобученной модели, наш метод способен создавать новые видео, в которых несколько людей выполняют пользовательское движение, а также комбинировать это движение с другими. Кроме того, наш подход распространяется на мультимодальную настройку движения и внешнего вида индивидуальных объектов, что позволяет генерировать видео с уникальными персонажами и различными движениями. В-третьих, для проверки нашего метода мы предлагаем подход для количественной оценки изученного пользовательского движения и проводим систематическое исследование с помощью абляционного анализа. Мы демонстрируем, что наш метод значительно превосходит предыдущие подходы, основанные на настройке внешнего вида, при расширении на задачу настройки движений.

English

We introduce an approach for augmenting text-to-video generation models with customized motions, extending their capabilities beyond the motions depicted in the original training data. By leveraging a few video samples demonstrating specific movements as input, our method learns and generalizes the input motion patterns for diverse, text-specified scenarios. Our contributions are threefold. First, to achieve our results, we finetune an existing text-to-video model to learn a novel mapping between the depicted motion in the input examples to a new unique token. To avoid overfitting to the new custom motion, we introduce an approach for regularization over videos. Second, by leveraging the motion priors in a pretrained model, our method can produce novel videos featuring multiple people doing the custom motion, and can invoke the motion in combination with other motions. Furthermore, our approach extends to the multimodal customization of motion and appearance of individualized subjects, enabling the generation of videos featuring unique characters and distinct motions. Third, to validate our method, we introduce an approach for quantitatively evaluating the learned custom motion and perform a systematic ablation study. We show that our method significantly outperforms prior appearance-based customization approaches when extended to the motion customization task.

Настройка движения в моделях диффузии для преобразования текста в видео

Customizing Motion in Text-to-Video Diffusion Models

Аннотация

Support