ChatPaper.aiChatPaper

Synchronisation In-Context de LoRA pour l'Édition de Vidéos Portrait

In-Context Sync-LoRA for Portrait Video Editing

December 2, 2025
papers.authors: Sagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI

papers.abstract

L'édition de vidéos portrait est une tâche complexe qui nécessite un contrôle flexible mais précis sur un large éventail de modifications, telles que les changements d'apparence, les corrections d'expression ou l'ajout d'objets. La principale difficulté réside dans la préservation du comportement temporel original du sujet, exigeant que chaque image modifiée reste parfaitement synchronisée avec l'image source correspondante. Nous présentons Sync-LoRA, une méthode d'édition de vidéos portrait qui réalise des modifications visuelles de haute qualité tout en maintenant une synchronisation image par image et une cohérence d'identité. Notre approche utilise un modèle de diffusion image-à-vidéo, où la modification est définie en transformant la première image puis propagée à l'ensemble de la séquence. Pour permettre une synchronisation précise, nous entraînons un LoRA contextuel à l'aide de vidéos appariées décrivant des trajectoires de mouvement identiques mais différant par l'apparence. Ces paires sont générées et sélectionnées automatiquement via un processus de filtrage basé sur la synchronisation qui ne retient que les exemples les plus alignés temporellement pour l'entraînement. Cette configuration apprend au modèle à combiner les indices de mouvement de la vidéo source avec les modifications visuelles introduites dans la première image éditée. Entraîné sur un ensemble compact et soigneusement sélectionné de portraits humains synchronisés, Sync-LoRA généralise à des identités non vues et à des modifications diverses (par exemple, modifier l'apparence, ajouter des objets ou changer l'arrière-plan), gérant robustement les variations de pose et d'expression. Nos résultats démontrent une haute fidélité visuelle et une forte cohérence temporelle, atteignant un équilibre robuste entre la fidélité de l'édition et la préservation précise du mouvement.
English
Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.
PDF11December 4, 2025