Sincronizzazione In-Contesto di LoRA per l'Editing di Video Ritrattistici
In-Context Sync-LoRA for Portrait Video Editing
December 2, 2025
Autori: Sagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI
Abstract
La modifica di video ritratto è un compito impegnativo che richiede un controllo flessibile ma preciso su un'ampia gamma di modifiche, come cambiamenti d'aspetto, editing delle espressioni o aggiunta di oggetti. La difficoltà principale risiede nel preservare il comportamento temporale originale del soggetto, richiedendo che ogni fotogramma modificato rimanga perfettamente sincronizzato con il corrispondente fotogramma sorgente. Presentiamo Sync-LoRA, un metodo per l'editing di video ritratto che ottiene modifiche visive di alta qualità mantenendo una sincronizzazione precisa a livello di fotogramma e la coerenza dell'identità. Il nostro approccio utilizza un modello di diffusione da immagine a video, in cui la modifica viene definita agendo sul primo fotogramma e poi propagata all'intera sequenza. Per abilitare una sincronizzazione accurata, addestriamo un LoRA in-context utilizzando video accoppiati che raffigurano identiche traiettorie di movimento ma differiscono nell'aspetto. Queste coppie vengono generate e curate automaticamente attraverso un processo di filtraggio basato sulla sincronizzazione, che seleziona solo gli esempi temporalmente più allineati per l'addestramento. Questa configurazione di training insegna al modello a combinare gli indizi di movimento dal video sorgente con i cambiamenti visivi introdotti nel primo fotogramma modificato. Addestrato su un insieme compatto e altamente curato di ritratti umani sincronizzati, Sync-LoRA generalizza a identità non viste e a modifiche diverse (ad esempio, modifica dell'aspetto, aggiunta di oggetti o cambiamento dello sfondo), gestendo in modo robusto le variazioni di posa ed espressione. I nostri risultati dimostrano un'elevata fedeltà visiva e una forte coerenza temporale, raggiungendo un solido equilibrio tra fedeltà della modifica e preservazione precisa del movimento.
English
Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.