초상화 비디오 편집을 위한 인-컨텍스트 싱크 로라
In-Context Sync-LoRA for Portrait Video Editing
December 2, 2025
저자: Sagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI
초록
초상화 동영상 편집은 외모 변경, 표정 수정, 객체 추가 등 광범위한 수정 사항에 대해 유연하면서도 정밀한 제어가 필요한 어려운 작업입니다. 핵심적인 난제는 피사체의 원본 시간적 동작을 보존하는 것으로, 편집된 모든 프레임이 해당 원본 프레임과 정확하게 동기화되어야 합니다. 본 논문에서는 고품질의 시각적 수정을 달성하면서도 프레임 단위 정확한 동기화와 정체성 일관성을 유지하는 초상화 동영상 편집 방법인 Sync-LoRA를 제안합니다. 우리의 접근 방식은 이미지-비디오 확산 모델을 사용하며, 첫 번째 프레임을 수정하여 편집을 정의한 후 전체 시퀀스로 전파합니다. 정확한 동기화를 가능하게 하기 위해, 동일한 운동 궤적을 나타내지만 외관이 다른 짝을 이룬 동영상으로 컨텍스트 내 LoRA를 학습시킵니다. 이러한 짝은 동기화 기반 필터링 과정을 통해 가장 시간적으로 정렬된 예시만을 선별하여 자동으로 생성 및 관리됩니다. 이 학습 설정은 모델이 원본 동영상의 운동 신호와 편집된 첫 번째 프레임에서 도입된 시각적 변화를 결합하도록 가르칩니다. 간결하고 엄선된 동기화된 인물 초상 데이터셋으로 학습된 Sync-LoRA는 보지 못한 정체성과 다양한 편집(예: 외모 수정, 객체 추가, 배경 변경)에 대해 일반화되며, 포즈와 표정의 변화를 강건하게 처리합니다. 우리의 결과는 높은 시각적 충실도와 강력한 시간적 일관성을 보여주며, 편집 충실도와 정확한 운동 보존 사이의 견고한 균형을 달성합니다.
English
Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.