Настройка движения в моделях диффузии для преобразования текста в видео
Customizing Motion in Text-to-Video Diffusion Models
December 7, 2023
Авторы: Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell
cs.AI
Аннотация
Мы представляем подход для расширения возможностей моделей генерации видео по текстовому описанию за счет добавления пользовательских движений, выходящих за рамки движений, представленных в исходных обучающих данных. Используя несколько видеосэмплов, демонстрирующих определенные движения в качестве входных данных, наш метод изучает и обобщает паттерны движений для разнообразных сценариев, заданных текстом. Наш вклад заключается в трех аспектах. Во-первых, для достижения результатов мы дообучаем существующую модель генерации видео по тексту, чтобы она научилась новому отображению между движением, представленным во входных примерах, и новым уникальным токеном. Чтобы избежать переобучения на новое пользовательское движение, мы предлагаем метод регуляризации на основе видео. Во-вторых, используя априорные знания о движениях в предобученной модели, наш метод способен создавать новые видео, в которых несколько людей выполняют пользовательское движение, а также комбинировать это движение с другими. Кроме того, наш подход распространяется на мультимодальную настройку движения и внешнего вида индивидуальных объектов, что позволяет генерировать видео с уникальными персонажами и различными движениями. В-третьих, для проверки нашего метода мы предлагаем подход для количественной оценки изученного пользовательского движения и проводим систематическое исследование с помощью абляционного анализа. Мы демонстрируем, что наш метод значительно превосходит предыдущие подходы, основанные на настройке внешнего вида, при расширении на задачу настройки движений.
English
We introduce an approach for augmenting text-to-video generation models with
customized motions, extending their capabilities beyond the motions depicted in
the original training data. By leveraging a few video samples demonstrating
specific movements as input, our method learns and generalizes the input motion
patterns for diverse, text-specified scenarios. Our contributions are
threefold. First, to achieve our results, we finetune an existing text-to-video
model to learn a novel mapping between the depicted motion in the input
examples to a new unique token. To avoid overfitting to the new custom motion,
we introduce an approach for regularization over videos. Second, by leveraging
the motion priors in a pretrained model, our method can produce novel videos
featuring multiple people doing the custom motion, and can invoke the motion in
combination with other motions. Furthermore, our approach extends to the
multimodal customization of motion and appearance of individualized subjects,
enabling the generation of videos featuring unique characters and distinct
motions. Third, to validate our method, we introduce an approach for
quantitatively evaluating the learned custom motion and perform a systematic
ablation study. We show that our method significantly outperforms prior
appearance-based customization approaches when extended to the motion
customization task.