Персонализация динамических концепций на основе одиночных видео
Dynamic Concepts Personalization from Single Videos
February 20, 2025
Авторы: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
cs.AI
Аннотация
Персонализация генеративных моделей "текст-изображение" достигла значительных успехов, однако расширение этой персонализации на модели "текст-видео" представляет собой уникальные задачи. В отличие от статических концепций, персонализация моделей "текст-видео" позволяет захватывать динамические концепции, то есть сущности, определяемые не только своим внешним видом, но и своим движением. В данной статье мы представляем Set-and-Sequence — новый фреймворк для персонализации генеративных видео-моделей на основе Diffusion Transformers (DiTs) с учетом динамических концепций. Наш подход внедряет пространственно-временное пространство весов в архитектуру, которая не разделяет явно пространственные и временные признаки. Это достигается в два ключевых этапа. Сначала мы донастраиваем слои Low-Rank Adaptation (LoRA) с использованием неупорядоченного набора кадров из видео, чтобы получить базис LoRA, представляющий внешний вид, свободный от временных искажений. На втором этапе, с замороженными LoRA, мы дополняем их коэффициенты Motion Residuals и донастраиваем их на полной последовательности видео, захватывая динамику движения. Наш фреймворк Set-and-Sequence создает пространственно-временное пространство весов, которое эффективно встраивает динамические концепции в выходную область видео-модели, обеспечивая беспрецедентную редактируемость и композиционность, а также устанавливая новый стандарт для персонализации динамических концепций.
English
Personalizing generative text-to-image models has seen remarkable progress,
but extending this personalization to text-to-video models presents unique
challenges. Unlike static concepts, personalizing text-to-video models has the
potential to capture dynamic concepts, i.e., entities defined not only by their
appearance but also by their motion. In this paper, we introduce
Set-and-Sequence, a novel framework for personalizing Diffusion Transformers
(DiTs)-based generative video models with dynamic concepts. Our approach
imposes a spatio-temporal weight space within an architecture that does not
explicitly separate spatial and temporal features. This is achieved in two key
stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an
unordered set of frames from the video to learn an identity LoRA basis that
represents the appearance, free from temporal interference. In the second
stage, with the identity LoRAs frozen, we augment their coefficients with
Motion Residuals and fine-tune them on the full video sequence, capturing
motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal
weight space that effectively embeds dynamic concepts into the video model's
output domain, enabling unprecedented editability and compositionality while
setting a new benchmark for personalizing dynamic concepts.Summary
AI-Generated Summary