Personalización de Conceptos Dinámicos a partir de Vídeos Únicos
Dynamic Concepts Personalization from Single Videos
February 20, 2025
Autores: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
cs.AI
Resumen
La personalización de modelos generativos de texto a imagen ha experimentado un progreso notable, pero extender esta personalización a modelos de texto a video presenta desafíos únicos. A diferencia de los conceptos estáticos, la personalización de modelos de texto a video tiene el potencial de capturar conceptos dinámicos, es decir, entidades definidas no solo por su apariencia, sino también por su movimiento. En este artículo, presentamos Set-and-Sequence, un marco novedoso para personalizar modelos generativos de video basados en Transformadores de Difusión (DiTs) con conceptos dinámicos. Nuestro enfoque impone un espacio de pesos espacio-temporal dentro de una arquitectura que no separa explícitamente las características espaciales y temporales. Esto se logra en dos etapas clave. Primero, ajustamos finamente las capas de Adaptación de Bajo Rango (LoRA) utilizando un conjunto desordenado de fotogramas del video para aprender una base LoRA de identidad que representa la apariencia, libre de interferencia temporal. En la segunda etapa, con las LoRAs de identidad congeladas, aumentamos sus coeficientes con Residuos de Movimiento y los ajustamos finamente en la secuencia completa del video, capturando la dinámica del movimiento. Nuestro marco Set-and-Sequence da como resultado un espacio de pesos espacio-temporal que integra efectivamente conceptos dinámicos en el dominio de salida del modelo de video, permitiendo una editabilidad y composicionalidad sin precedentes, al tiempo que establece un nuevo estándar para la personalización de conceptos dinámicos.
English
Personalizing generative text-to-image models has seen remarkable progress,
but extending this personalization to text-to-video models presents unique
challenges. Unlike static concepts, personalizing text-to-video models has the
potential to capture dynamic concepts, i.e., entities defined not only by their
appearance but also by their motion. In this paper, we introduce
Set-and-Sequence, a novel framework for personalizing Diffusion Transformers
(DiTs)-based generative video models with dynamic concepts. Our approach
imposes a spatio-temporal weight space within an architecture that does not
explicitly separate spatial and temporal features. This is achieved in two key
stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an
unordered set of frames from the video to learn an identity LoRA basis that
represents the appearance, free from temporal interference. In the second
stage, with the identity LoRAs frozen, we augment their coefficients with
Motion Residuals and fine-tune them on the full video sequence, capturing
motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal
weight space that effectively embeds dynamic concepts into the video model's
output domain, enabling unprecedented editability and compositionality while
setting a new benchmark for personalizing dynamic concepts.Summary
AI-Generated Summary