ChatPaper.aiChatPaper

Sincronización de LoRA en Contexto para la Edición de Videos Retrato

In-Context Sync-LoRA for Portrait Video Editing

December 2, 2025
Autores: Sagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI

Resumen

La edición de vídeos de retrato es una tarea compleja que requiere un control flexible pero preciso sobre una amplia gama de modificaciones, como cambios de apariencia, ediciones de expresión o adición de objetos. La principal dificultad reside en preservar el comportamiento temporal original del sujeto, lo que exige que cada fotograma editado permanezca perfectamente sincronizado con el fotograma fuente correspondiente. Presentamos Sync-LoRA, un método para editar vídeos de retrato que logra modificaciones visuales de alta calidad manteniendo una sincronización precisa fotograma a fotograma y la consistencia de la identidad. Nuestro enfoque utiliza un modelo de difusión de imagen a vídeo, donde la edición se define modificando el primer fotograma y luego se propaga a toda la secuencia. Para permitir una sincronización precisa, entrenamos un LoRA en contexto utilizando vídeos emparejados que representan trayectorias de movimiento idénticas pero difieren en apariencia. Estos pares se generan y curan automáticamente mediante un proceso de filtrado basado en sincronización que selecciona solo los ejemplos más alineados temporalmente para el entrenamiento. Esta configuración de entrenamiento enseña al modelo a combinar las señales de movimiento del vídeo fuente con los cambios visuales introducidos en el primer fotograma editado. Entrenado en un conjunto compacto y altamente seleccionado de retratos humanos sincronizados, Sync-LoRA generaliza a identidades no vistas y diversas ediciones (por ejemplo, modificar la apariencia, añadir objetos o cambiar fondos), manejando robustamente variaciones en la pose y la expresión. Nuestros resultados demuestran una alta fidelidad visual y una fuerte coherencia temporal, logrando un equilibrio robusto entre la fidelidad de la edición y la preservación precisa del movimiento.
English
Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.
PDF11December 4, 2025