LoRA-Edit: Modifica Video Controllata Tramite Guida del Primo Fotogramma con Fine-Tuning Consapevole della Maschera via LoRA
LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning
June 11, 2025
Autori: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
cs.AI
Abstract
L'editing video utilizzando modelli di diffusione ha ottenuto risultati notevoli nella generazione di modifiche di alta qualità per i video. Tuttavia, i metodi attuali spesso si basano su pre-addestramento su larga scala, limitando la flessibilità per modifiche specifiche. L'editing guidato dal primo fotogramma offre controllo sul fotogramma iniziale, ma manca di flessibilità sui fotogrammi successivi. Per affrontare questo problema, proponiamo un metodo di adattamento LoRA (Low-Rank Adaptation) basato su maschere che adatta modelli pre-addestrati da immagine a video (I2V) per un editing video flessibile. Il nostro approccio preserva le regioni di sfondo consentendo al contempo la propagazione controllata delle modifiche. Questa soluzione offre un editing video efficiente e adattabile senza alterare l'architettura del modello. Per guidare meglio questo processo, incorporiamo riferimenti aggiuntivi, come punti di vista alternativi o stati rappresentativi della scena, che fungono da ancore visive per come il contenuto dovrebbe svilupparsi. Affrontiamo la sfida del controllo utilizzando una strategia di adattamento LoRA guidata da maschere che adatta un modello pre-addestrato da immagine a video al contesto di editing. Il modello deve apprendere da due fonti distinte: il video di input fornisce struttura spaziale e indicazioni di movimento, mentre le immagini di riferimento offrono una guida per l'aspetto. Una maschera spaziale consente un apprendimento specifico per regione modulando dinamicamente ciò a cui il modello presta attenzione, assicurando che ogni area tragga dalla fonte appropriata. I risultati sperimentali dimostrano che il nostro metodo raggiunge prestazioni di editing video superiori rispetto ai metodi all'avanguardia.
English
Video editing using diffusion models has achieved remarkable results in
generating high-quality edits for videos. However, current methods often rely
on large-scale pretraining, limiting flexibility for specific edits.
First-frame-guided editing provides control over the first frame, but lacks
flexibility over subsequent frames. To address this, we propose a mask-based
LoRA (Low-Rank Adaptation) tuning method that adapts pretrained Image-to-Video
(I2V) models for flexible video editing. Our approach preserves background
regions while enabling controllable edits propagation. This solution offers
efficient and adaptable video editing without altering the model architecture.
To better steer this process, we incorporate additional references, such as
alternate viewpoints or representative scene states, which serve as visual
anchors for how content should unfold. We address the control challenge using a
mask-driven LoRA tuning strategy that adapts a pre-trained image-to-video model
to the editing context. The model must learn from two distinct sources: the
input video provides spatial structure and motion cues, while reference images
offer appearance guidance. A spatial mask enables region-specific learning by
dynamically modulating what the model attends to, ensuring that each area draws
from the appropriate source. Experimental results show our method achieves
superior video editing performance compared to state-of-the-art methods.