In-Context Sync-LoRA voor Portretvideobewerking
In-Context Sync-LoRA for Portrait Video Editing
December 2, 2025
Auteurs: Sagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI
Samenvatting
Het bewerken van portretvideo's is een uitdagende taak die flexibele maar precieze controle vereist over een breed scala aan wijzigingen, zoals uiterlijke veranderingen, expressie-aanpassingen of het toevoegen van objecten. De grootste moeilijkheid schuilt in het behouden van het oorspronkelijke temporele gedrag van het onderwerp, wat vereist dat elk bewerkt frame precies gesynchroniseerd blijft met het corresponderende bronframe. Wij presenteren Sync-LoRA, een methode voor het bewerken van portretvideo's die hoogwaardige visuele wijzigingen bereikt met behoud van frame-perfecte synchronisatie en identiteitsconsistentie. Onze aanpak gebruikt een image-to-video diffusiemodel, waarbij de bewerking wordt gedefinieerd door het eerste frame aan te passen en deze vervolgens naar de gehele sequentie door te voeren. Om nauwkeurige synchronisatie mogelijk te maken, trainen we een in-context LoRA met gepaarde video's die identieke bewegingspatronen vertonen maar verschillen in uiterlijk. Deze paren worden automatisch gegenereerd en geselecteerd via een op synchronisatie gebaseerd filterproces dat alleen de meest temporeel uitgelijnde voorbeelden voor training selecteert. Deze trainingsopzet leert het model om bewegingsinformatie uit de bronvideo te combineren met de visuele veranderingen die in het bewerkte eerste frame zijn aangebracht. Getraind op een compacte, zorgvuldig geselecteerde set gesynchroniseerde menselijke portretten, generaliseert Sync-LoRA naar onbekende identiteiten en diverse bewerkingen (bijvoorbeeld het aanpassen van uiterlijk, toevoegen van objecten of veranderen van achtergronden), waarbij het robuust omgaat met variaties in houding en expressie. Onze resultaten tonen een hoge visuele kwaliteit en sterke temporele coherentie, waardoor een robuuste balans wordt bereikt tussen bewerkingsgetrouwheid en precieze bewegingsoverdracht.
English
Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.