Personnalisation dynamique des concepts à partir de vidéos uniques
Dynamic Concepts Personalization from Single Videos
February 20, 2025
Auteurs: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
cs.AI
Résumé
La personnalisation des modèles génératifs de texte-à-image a connu des progrès remarquables, mais son extension aux modèles de texte-à-vidéo présente des défis uniques. Contrairement aux concepts statiques, la personnalisation des modèles de texte-à-vidéo a le potentiel de capturer des concepts dynamiques, c'est-à-dire des entités définies non seulement par leur apparence, mais aussi par leur mouvement. Dans cet article, nous présentons Set-and-Sequence, un cadre novateur pour personnaliser les modèles génératifs de vidéo basés sur les Transformers de Diffusion (DiTs) avec des concepts dynamiques. Notre approche impose un espace de poids spatio-temporel au sein d'une architecture qui ne sépare pas explicitement les caractéristiques spatiales et temporelles. Cela est réalisé en deux étapes clés. Tout d'abord, nous affinons les couches d'Adaptation à Faible Rang (LoRA) en utilisant un ensemble non ordonné d'images de la vidéo pour apprendre une base LoRA d'identité qui représente l'apparence, sans interférence temporelle. Dans la deuxième étape, avec les LoRA d'identité figés, nous augmentons leurs coefficients avec des Résidus de Mouvement et les affinons sur la séquence vidéo complète, capturant ainsi la dynamique du mouvement. Notre cadre Set-and-Sequence aboutit à un espace de poids spatio-temporel qui intègre efficacement des concepts dynamiques dans le domaine de sortie du modèle vidéo, permettant une éditabilité et une compositionnalité sans précédent tout en établissant un nouveau standard pour la personnalisation des concepts dynamiques.
English
Personalizing generative text-to-image models has seen remarkable progress,
but extending this personalization to text-to-video models presents unique
challenges. Unlike static concepts, personalizing text-to-video models has the
potential to capture dynamic concepts, i.e., entities defined not only by their
appearance but also by their motion. In this paper, we introduce
Set-and-Sequence, a novel framework for personalizing Diffusion Transformers
(DiTs)-based generative video models with dynamic concepts. Our approach
imposes a spatio-temporal weight space within an architecture that does not
explicitly separate spatial and temporal features. This is achieved in two key
stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an
unordered set of frames from the video to learn an identity LoRA basis that
represents the appearance, free from temporal interference. In the second
stage, with the identity LoRAs frozen, we augment their coefficients with
Motion Residuals and fine-tune them on the full video sequence, capturing
motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal
weight space that effectively embeds dynamic concepts into the video model's
output domain, enabling unprecedented editability and compositionality while
setting a new benchmark for personalizing dynamic concepts.Summary
AI-Generated Summary