Sincronização In-Context do LoRA para Edição de Vídeo de Retrato

Resumo

A edição de vídeos retrato é uma tarefa desafiadora que requer controle flexível, porém preciso, sobre uma ampla gama de modificações, como alterações de aparência, edições de expressão ou adição de objetos. A principal dificuldade reside em preservar o comportamento temporal original do sujeito, exigindo que cada quadro editado permaneça perfeitamente sincronizado com o quadro de origem correspondente. Apresentamos o Sync-LoRA, um método para edição de vídeos retrato que alcança modificações visuais de alta qualidade, mantendo a sincronização precisa por quadro e a consistência da identidade. Nossa abordagem utiliza um modelo de difusão de imagem para vídeo, no qual a edição é definida pela modificação do primeiro quadro e subsequentemente propagada para toda a sequência. Para permitir uma sincronização precisa, treinamos um LoRA contextual usando vídeos pareados que descrevem trajetórias de movimento idênticas, mas diferem na aparência. Esses pares são gerados e curados automaticamente por meio de um processo de filtragem baseado em sincronização que seleciona apenas os exemplos mais alinhados temporalmente para o treinamento. Esta configuração de treinamento ensina o modelo a combinar pistas de movimento do vídeo de origem com as alterações visuais introduzidas no primeiro quadro editado. Treinado em um conjunto compacto e altamente curado de retratos humanos sincronizados, o Sync-LoRA generaliza para identidades não vistas e edições diversas (por exemplo, modificar a aparência, adicionar objetos ou alterar planos de fundo), lidando de forma robusta com variações de pose e expressão. Nossos resultados demonstram alta fidelidade visual e forte coerência temporal, alcançando um equilíbrio robusto entre a fidelidade da edição e a preservação precisa do movimento.

English

Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.

Sincronização In-Context do LoRA para Edição de Vídeo de Retrato

In-Context Sync-LoRA for Portrait Video Editing

Resumo

Support