ChatPaper.aiChatPaper

LoRA-Edit: Steuerbare, erstbildgestützte Videobearbeitung durch maskenbewusstes LoRA-Fine-Tuning

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

June 11, 2025
Autoren: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
cs.AI

Zusammenfassung

Die Videobearbeitung mit Diffusionsmodellen hat bemerkenswerte Ergebnisse bei der Erzeugung hochwertiger Bearbeitungen für Videos erzielt. Allerdings basieren aktuelle Methoden oft auf groß angelegtem Vortraining, was die Flexibilität für spezifische Bearbeitungen einschränkt. Die Bearbeitung mit Führung durch das erste Bild ermöglicht zwar Kontrolle über das erste Bild, bietet jedoch keine Flexibilität für nachfolgende Bilder. Um dies zu beheben, schlagen wir eine maskenbasierte LoRA (Low-Rank Adaptation)-Feinabstimmungsmethode vor, die vortrainierte Bild-zu-Video (I2V)-Modelle für flexible Videobearbeitung anpasst. Unser Ansatz bewahrt Hintergrundbereiche und ermöglicht gleichzeitig kontrollierte Bearbeitungsfortpflanzung. Diese Lösung bietet effiziente und anpassungsfähige Videobearbeitung, ohne die Modellarchitektur zu verändern. Um diesen Prozess besser zu steuern, integrieren wir zusätzliche Referenzen, wie alternative Blickwinkel oder repräsentative Szenenzustände, die als visuelle Anker dienen, wie sich der Inhalt entfalten soll. Wir adressieren die Kontrollherausforderung mit einer maskengesteuerten LoRA-Feinabstimmungsstrategie, die ein vortrainiertes Bild-zu-Video-Modell an den Bearbeitungskontext anpasst. Das Modell muss aus zwei unterschiedlichen Quellen lernen: Das Eingabevideo liefert räumliche Struktur und Bewegungshinweise, während Referenzbilder Erscheinungsführungen bieten. Eine räumliche Maske ermöglicht regionsspezifisches Lernen, indem sie dynamisch moduliert, worauf das Modell achtet, und sicherstellt, dass jeder Bereich aus der entsprechenden Quelle schöpft. Experimentelle Ergebnisse zeigen, dass unsere Methode im Vergleich zu modernsten Methoden eine überlegene Videobearbeitungsleistung erzielt.
English
Video editing using diffusion models has achieved remarkable results in generating high-quality edits for videos. However, current methods often rely on large-scale pretraining, limiting flexibility for specific edits. First-frame-guided editing provides control over the first frame, but lacks flexibility over subsequent frames. To address this, we propose a mask-based LoRA (Low-Rank Adaptation) tuning method that adapts pretrained Image-to-Video (I2V) models for flexible video editing. Our approach preserves background regions while enabling controllable edits propagation. This solution offers efficient and adaptable video editing without altering the model architecture. To better steer this process, we incorporate additional references, such as alternate viewpoints or representative scene states, which serve as visual anchors for how content should unfold. We address the control challenge using a mask-driven LoRA tuning strategy that adapts a pre-trained image-to-video model to the editing context. The model must learn from two distinct sources: the input video provides spatial structure and motion cues, while reference images offer appearance guidance. A spatial mask enables region-specific learning by dynamically modulating what the model attends to, ensuring that each area draws from the appropriate source. Experimental results show our method achieves superior video editing performance compared to state-of-the-art methods.
PDF42June 16, 2025