ChatPaper.aiChatPaper

ポートレート動画編集のためのインコンテキストSync-LoRA

In-Context Sync-LoRA for Portrait Video Editing

December 2, 2025
著者: Sagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI

要旨

ポートレート動画の編集は、外見の変更、表情の編集、オブジェクトの追加など、多岐にわたる修正を柔軟かつ精密に制御することを必要とする困難な課題である。主な難しさは、被写体の元の時間的動作を保持することにあり、編集されたすべてのフレームが対応するソースフレームと正確に同期し続けることを要求する。本研究では、フレーム精度での同期とアイデンティティの一貫性を維持しつつ、高品質な視覚的修正を実現するポートレート動画編集手法、Sync-LoRAを提案する。我々のアプローチは、画像-動画拡散モデルを利用し、編集は最初のフレームを修正することで定義し、その後その変更をシーケンス全体に伝播させる。正確な同期を可能にするため、同一の動きの軌跡を描くが外見が異なるペアの動画を用いて、インコンテキストLoRAを学習する。これらのペアは自動生成され、同期性に基づくフィルタリング処理を経て厳選され、時間的に最も整合性の高い例のみが学習に選択される。この学習設定により、モデルはソース動画からの動きの手がかりと、編集された最初のフレームで導入された視覚的変化とを組み合わせることを学ぶ。厳選されたコンパクトな同期された人物ポートレートデータセットで学習されたSync-LoRAは、未見の人物IDや多様な編集(例:外見の変更、オブジェクトの追加、背景の変更)に一般化し、ポーズや表情の変動に対して頑健に対処する。我々の結果は、高い視覚的忠実度と強固な時間的一貫性を示し、編集の忠実度と精密な動きの保存の間の頑健なバランスを達成している。
English
Editing portrait videos is a challenging task that requires flexible yet precise control over a wide range of modifications, such as appearance changes, expression edits, or the addition of objects. The key difficulty lies in preserving the subject's original temporal behavior, demanding that every edited frame remains precisely synchronized with the corresponding source frame. We present Sync-LoRA, a method for editing portrait videos that achieves high-quality visual modifications while maintaining frame-accurate synchronization and identity consistency. Our approach uses an image-to-video diffusion model, where the edit is defined by modifying the first frame and then propagated to the entire sequence. To enable accurate synchronization, we train an in-context LoRA using paired videos that depict identical motion trajectories but differ in appearance. These pairs are automatically generated and curated through a synchronization-based filtering process that selects only the most temporally aligned examples for training. This training setup teaches the model to combine motion cues from the source video with the visual changes introduced in the edited first frame. Trained on a compact, highly curated set of synchronized human portraits, Sync-LoRA generalizes to unseen identities and diverse edits (e.g., modifying appearance, adding objects, or changing backgrounds), robustly handling variations in pose and expression. Our results demonstrate high visual fidelity and strong temporal coherence, achieving a robust balance between edit fidelity and precise motion preservation.
PDF11December 4, 2025