In-Context Sync-LoRA для редактирования портретного видео
In-Context Sync-LoRA for Portrait Video Editing
December 2, 2025
Авторы: Sagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI
Аннотация
Редактирование портретных видео — это сложная задача, требующая гибкого, но точного контроля над широким спектром модификаций, таких как изменение внешности, правка выражения лица или добавление объектов. Основная сложность заключается в сохранении исходного временного поведения субъекта, что требует точной синхронизации каждого редактируемого кадра с соответствующим исходным кадром. Мы представляем Sync-LoRA — метод редактирования портретных видео, который обеспечивает высококачественные визуальные модификации при сохранении покадровой синхронизации и консистентности идентичности. Наш подход использует диффузионную модель «изображение-в-видео», где правка задается путем модификации первого кадра, а затем распространяется на всю последовательность. Для достижения точной синхронизации мы обучаем контекстно-зависимый LoRA на парных видео, которые изображают идентичные траектории движений, но различаются по внешности. Эти пары автоматически генерируются и отбираются с помощью процесса фильтрации на основе синхронизации, который выбирает для обучения только наиболее временно согласованные примеры. Такая схема обучения учит модель комбинировать сигналы движения из исходного видео с визуальными изменениями, внесенными в отредактированный первый кадр. Обучившись на компактном, тщательно отобранном наборе синхронизированных человеческих портретов, Sync-LoRA обобщается на незнакомые идентичности и разнообразные правки (например, изменение внешности, добавление объектов или смена фона), устойчиво обрабатывая вариации позы и выражения. Наши результаты демонстрируют высокую визуальную достоверность и сильную временную согласованность, достигая надежного баланса между точностью редактирования и сохранением исходной динамики движений.
English
Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.