ChatPaper.aiChatPaper

In-Context Sync-LoRA für die Bearbeitung von Porträtvideos

In-Context Sync-LoRA for Portrait Video Editing

December 2, 2025
papers.authors: Sagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI

papers.abstract

Die Bearbeitung von Porträtvideos ist eine anspruchsvolle Aufgabe, die eine flexible, aber präzise Kontrolle über ein breites Spektrum von Modifikationen erfordert, wie beispielsweise Änderungen des Erscheinungsbilds, Bearbeitungen des Gesichtsausdrucks oder das Hinzufügen von Objekten. Die Hauptschwierigkeit besteht darin, das ursprüngliche zeitliche Verhalten der Person zu erhalten, was erfordert, dass jeder bearbeitete Einzelbilder exakt mit dem entsprechenden Quellbild synchronisiert bleibt. Wir stellen Sync-LoRA vor, eine Methode zur Bearbeitung von Porträtvideos, die hochwertige visuelle Modifikationen bei gleichzeitiger Wahrung einer bildgenauen Synchronisation und Identitätskonsistenz erreicht. Unser Ansatz nutzt ein Bild-zu-Video-Diffusionsmodell, bei dem die Bearbeitung durch Modifikation des ersten Einzelbilds definiert und dann auf die gesamte Sequenz übertragen wird. Um eine präzise Synchronisation zu ermöglichen, trainieren wir ein In-Context-LoRA mit gepaarten Videos, die identische Bewegungsverläufe darstellen, sich aber im Erscheinungsbild unterscheiden. Diese Paare werden automatisch generiert und durch einen synchronisationsbasierten Filterungsprozess kuratiert, der nur die zeitlich am besten ausgerichteten Beispiele für das Training auswählt. Dieser Trainingsaufbau bringt dem Modell bei, Bewegungshinweise aus dem Quellvideo mit den visuellen Änderungen aus dem bearbeiteten Startbild zu kombinieren. Sync-LoRA, trainiert auf einem kompakten, hochgradig kuratierten Satz synchronisierter Porträtaufnahmen, verallgemeinert auf unbekannte Identitäten und verschiedene Bearbeitungen (z.B. Änderung des Aussehens, Hinzufügen von Objekten oder Wechsel des Hintergrunds) und bewältigt robust Variationen in Pose und Ausdruck. Unsere Ergebnisse demonstrieren hohe visuelle Qualität und starke zeitliche Kohärenz und erreichen eine robuste Balance zwischen Bearbeitungstreue und präziser Bewegungserhaltung.
English
Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.
PDF11December 4, 2025