Personalizzazione di Concetti Dinamici da Singoli Video
Dynamic Concepts Personalization from Single Videos
February 20, 2025
Autori: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
cs.AI
Abstract
La personalizzazione dei modelli generativi testo-immagine ha registrato progressi notevoli, ma estendere questa personalizzazione ai modelli testo-video presenta sfide uniche. A differenza dei concetti statici, la personalizzazione dei modelli testo-video ha il potenziale di catturare concetti dinamici, ovvero entità definite non solo dal loro aspetto ma anche dal loro movimento. In questo articolo, introduciamo Set-and-Sequence, un nuovo framework per personalizzare modelli generativi video basati su Diffusion Transformers (DiTs) con concetti dinamici. Il nostro approccio impone uno spazio di pesi spazio-temporale all'interno di un'architettura che non separa esplicitamente le caratteristiche spaziali e temporali. Questo viene ottenuto in due fasi chiave. Innanzitutto, ottimizziamo i livelli di Low-Rank Adaptation (LoRA) utilizzando un insieme non ordinato di frame del video per apprendere una base LoRA di identità che rappresenta l'aspetto, libera da interferenze temporali. Nella seconda fase, con le LoRA di identità congelate, aumentiamo i loro coefficienti con Residui di Movimento e li ottimizziamo sull'intera sequenza video, catturando le dinamiche del movimento. Il nostro framework Set-and-Sequence produce uno spazio di pesi spazio-temporale che incorpora efficacemente concetti dinamici nel dominio di output del modello video, consentendo un'inedita editabilità e componibilità, stabilendo al contempo un nuovo punto di riferimento per la personalizzazione di concetti dinamici.
English
Personalizing generative text-to-image models has seen remarkable progress,
but extending this personalization to text-to-video models presents unique
challenges. Unlike static concepts, personalizing text-to-video models has the
potential to capture dynamic concepts, i.e., entities defined not only by their
appearance but also by their motion. In this paper, we introduce
Set-and-Sequence, a novel framework for personalizing Diffusion Transformers
(DiTs)-based generative video models with dynamic concepts. Our approach
imposes a spatio-temporal weight space within an architecture that does not
explicitly separate spatial and temporal features. This is achieved in two key
stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an
unordered set of frames from the video to learn an identity LoRA basis that
represents the appearance, free from temporal interference. In the second
stage, with the identity LoRAs frozen, we augment their coefficients with
Motion Residuals and fine-tune them on the full video sequence, capturing
motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal
weight space that effectively embeds dynamic concepts into the video model's
output domain, enabling unprecedented editability and compositionality while
setting a new benchmark for personalizing dynamic concepts.Summary
AI-Generated Summary