ChatPaper.aiChatPaper

LoRA-Edit: Beheersbare Video Bewerking via Eerste Frame-Gestuurde Maskerbewuste LoRA Fine-Tuning

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

June 11, 2025
Auteurs: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
cs.AI

Samenvatting

Video-editing met behulp van diffusiemodellen heeft opmerkelijke resultaten behaald bij het genereren van hoogwaardige bewerkingen voor video's. Huidige methoden zijn echter vaak afhankelijk van grootschalige voorafgaande training, wat de flexibiliteit voor specifieke bewerkingen beperkt. Bewerkingen die worden gestuurd door het eerste frame bieden controle over het eerste frame, maar missen flexibiliteit voor de daaropvolgende frames. Om dit aan te pakken, stellen we een maskergebaseerde LoRA (Low-Rank Adaptation)-afstemmingsmethode voor die vooraf getrainde Image-to-Video (I2V)-modellen aanpast voor flexibele video-editing. Onze aanpak behoudt achtergrondgebieden terwijl het mogelijk maakt om bewerkingen op een controleerbare manier door te voeren. Deze oplossing biedt efficiënte en aanpasbare video-editing zonder de modelarchitectuur te wijzigen. Om dit proces beter te sturen, integreren we aanvullende referenties, zoals alternatieve gezichtspunten of representatieve scène-toestanden, die dienen als visuele ankers voor hoe de inhoud zich zou moeten ontvouwen. We pakken de controle-uitdaging aan met een maskergestuurde LoRA-afstemmingsstrategie die een vooraf getraind image-to-video-model aanpast aan de bewerkingscontext. Het model moet leren van twee verschillende bronnen: de invoervideo biedt ruimtelijke structuur en bewegingsaanwijzingen, terwijl referentiebeelden uiterlijkbegeleiding bieden. Een ruimtelijk masker maakt regiogericht leren mogelijk door dynamisch te moduleren waar het model aandacht aan besteedt, waardoor ervoor wordt gezorgd dat elk gebied put uit de juiste bron. Experimentele resultaten tonen aan dat onze methode superieure video-editingprestaties bereikt in vergelijking met state-of-the-art methoden.
English
Video editing using diffusion models has achieved remarkable results in generating high-quality edits for videos. However, current methods often rely on large-scale pretraining, limiting flexibility for specific edits. First-frame-guided editing provides control over the first frame, but lacks flexibility over subsequent frames. To address this, we propose a mask-based LoRA (Low-Rank Adaptation) tuning method that adapts pretrained Image-to-Video (I2V) models for flexible video editing. Our approach preserves background regions while enabling controllable edits propagation. This solution offers efficient and adaptable video editing without altering the model architecture. To better steer this process, we incorporate additional references, such as alternate viewpoints or representative scene states, which serve as visual anchors for how content should unfold. We address the control challenge using a mask-driven LoRA tuning strategy that adapts a pre-trained image-to-video model to the editing context. The model must learn from two distinct sources: the input video provides spatial structure and motion cues, while reference images offer appearance guidance. A spatial mask enables region-specific learning by dynamically modulating what the model attends to, ensuring that each area draws from the appropriate source. Experimental results show our method achieves superior video editing performance compared to state-of-the-art methods.
PDF82June 16, 2025