Dynamische Concept Personalisatie vanuit Enkele Video's
Dynamic Concepts Personalization from Single Videos
February 20, 2025
Auteurs: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
cs.AI
Samenvatting
Het personaliseren van generatieve tekst-naar-beeldmodellen heeft opmerkelijke vooruitgang geboekt, maar het uitbreiden van deze personalisatie naar tekst-naar-videomodellen brengt unieke uitdagingen met zich mee. In tegenstelling tot statische concepten, heeft het personaliseren van tekst-naar-videomodellen het potentieel om dynamische concepten vast te leggen, d.w.z. entiteiten die niet alleen worden gedefinieerd door hun uiterlijk, maar ook door hun beweging. In dit artikel introduceren we Set-and-Sequence, een nieuw framework voor het personaliseren van op Diffusion Transformers (DiTs) gebaseerde generatieve videomodellen met dynamische concepten. Onze aanpak legt een spatio-temporele gewichtsruimte op binnen een architectuur die ruimtelijke en temporele kenmerken niet expliciet scheidt. Dit wordt bereikt in twee belangrijke fasen. Eerst fine-tunen we Low-Rank Adaptation (LoRA)-lagen met behulp van een ongeordende set frames uit de video om een identiteit LoRA-basis te leren die het uiterlijk vertegenwoordigt, vrij van temporele interferentie. In de tweede fase, met de identiteit LoRA's bevroren, verrijken we hun coëfficiënten met Motion Residuals en fine-tunen we ze op de volledige videosequentie, waarbij we bewegingsdynamiek vastleggen. Ons Set-and-Sequence framework resulteert in een spatio-temporele gewichtsruimte die dynamische concepten effectief in het uitvoerdomein van het videomodel inbedt, wat ongekende bewerkbaarheid en compositionaliteit mogelijk maakt, terwijl het een nieuwe standaard zet voor het personaliseren van dynamische concepten.
English
Personalizing generative text-to-image models has seen remarkable progress,
but extending this personalization to text-to-video models presents unique
challenges. Unlike static concepts, personalizing text-to-video models has the
potential to capture dynamic concepts, i.e., entities defined not only by their
appearance but also by their motion. In this paper, we introduce
Set-and-Sequence, a novel framework for personalizing Diffusion Transformers
(DiTs)-based generative video models with dynamic concepts. Our approach
imposes a spatio-temporal weight space within an architecture that does not
explicitly separate spatial and temporal features. This is achieved in two key
stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an
unordered set of frames from the video to learn an identity LoRA basis that
represents the appearance, free from temporal interference. In the second
stage, with the identity LoRAs frozen, we augment their coefficients with
Motion Residuals and fine-tune them on the full video sequence, capturing
motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal
weight space that effectively embeds dynamic concepts into the video model's
output domain, enabling unprecedented editability and compositionality while
setting a new benchmark for personalizing dynamic concepts.Summary
AI-Generated Summary