Personalização de Conceitos Dinâmicos a partir de Vídeos Únicos
Dynamic Concepts Personalization from Single Videos
February 20, 2025
Autores: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
cs.AI
Resumo
A personalização de modelos generativos de texto para imagem tem apresentado avanços notáveis, mas estender essa personalização para modelos de texto para vídeo apresenta desafios únicos. Diferente de conceitos estáticos, a personalização de modelos de texto para vídeo tem o potencial de capturar conceitos dinâmicos, ou seja, entidades definidas não apenas por sua aparência, mas também por seu movimento. Neste artigo, introduzimos Set-and-Sequence, uma nova estrutura para personalizar modelos generativos de vídeo baseados em Transformadores de Difusão (DiTs) com conceitos dinâmicos. Nossa abordagem impõe um espaço de pesos espaço-temporal dentro de uma arquitetura que não separa explicitamente características espaciais e temporais. Isso é alcançado em duas etapas principais. Primeiro, ajustamos finamente camadas de Adaptação de Baixa Ordem (LoRA) usando um conjunto não ordenado de quadros do vídeo para aprender uma base LoRA de identidade que representa a aparência, livre de interferência temporal. Na segunda etapa, com as LoRAs de identidade congeladas, aumentamos seus coeficientes com Residuais de Movimento e os ajustamos finamente na sequência completa do vídeo, capturando a dinâmica do movimento. Nossa estrutura Set-and-Sequence resulta em um espaço de pesos espaço-temporal que efetivamente incorpora conceitos dinâmicos no domínio de saída do modelo de vídeo, permitindo uma editabilidade e composicionalidade sem precedentes, ao mesmo tempo que estabelece um novo padrão para a personalização de conceitos dinâmicos.
English
Personalizing generative text-to-image models has seen remarkable progress,
but extending this personalization to text-to-video models presents unique
challenges. Unlike static concepts, personalizing text-to-video models has the
potential to capture dynamic concepts, i.e., entities defined not only by their
appearance but also by their motion. In this paper, we introduce
Set-and-Sequence, a novel framework for personalizing Diffusion Transformers
(DiTs)-based generative video models with dynamic concepts. Our approach
imposes a spatio-temporal weight space within an architecture that does not
explicitly separate spatial and temporal features. This is achieved in two key
stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an
unordered set of frames from the video to learn an identity LoRA basis that
represents the appearance, free from temporal interference. In the second
stage, with the identity LoRAs frozen, we augment their coefficients with
Motion Residuals and fine-tune them on the full video sequence, capturing
motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal
weight space that effectively embeds dynamic concepts into the video model's
output domain, enabling unprecedented editability and compositionality while
setting a new benchmark for personalizing dynamic concepts.Summary
AI-Generated Summary