ChatPaper.aiChatPaper

LoRA-Edit : Édition vidéo contrôlée guidée par la première image via un réglage fin LoRA prenant en compte les masques

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

June 11, 2025
Auteurs: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
cs.AI

Résumé

L'édition vidéo utilisant des modèles de diffusion a obtenu des résultats remarquables dans la génération de modifications de haute qualité pour les vidéos. Cependant, les méthodes actuelles reposent souvent sur un pré-entraînement à grande échelle, limitant la flexibilité pour des modifications spécifiques. L'édition guidée par la première image permet un contrôle sur cette dernière, mais manque de flexibilité pour les images suivantes. Pour résoudre ce problème, nous proposons une méthode d'adaptation basée sur des masques utilisant LoRA (Low-Rank Adaptation), qui adapte des modèles pré-entraînés Image-à-Vidéo (I2V) pour une édition vidéo flexible. Notre approche préserve les régions de l'arrière-plan tout en permettant une propagation contrôlée des modifications. Cette solution offre une édition vidéo efficace et adaptable sans altérer l'architecture du modèle. Pour mieux guider ce processus, nous intégrons des références supplémentaires, telles que des points de vue alternatifs ou des états de scène représentatifs, qui servent d'ancres visuelles pour le déroulement du contenu. Nous abordons le défi du contrôle en utilisant une stratégie d'adaptation LoRA pilotée par des masques, qui adapte un modèle pré-entraîné Image-à-Vidéo au contexte d'édition. Le modèle doit apprendre à partir de deux sources distinctes : la vidéo d'entrée fournit des indices de structure spatiale et de mouvement, tandis que les images de référence offrent des indications d'apparence. Un masque spatial permet un apprentissage spécifique à une région en modulant dynamiquement ce à quoi le modèle prête attention, garantissant que chaque zone s'inspire de la source appropriée. Les résultats expérimentaux montrent que notre méthode atteint des performances d'édition vidéo supérieures par rapport aux méthodes de pointe.
English
Video editing using diffusion models has achieved remarkable results in generating high-quality edits for videos. However, current methods often rely on large-scale pretraining, limiting flexibility for specific edits. First-frame-guided editing provides control over the first frame, but lacks flexibility over subsequent frames. To address this, we propose a mask-based LoRA (Low-Rank Adaptation) tuning method that adapts pretrained Image-to-Video (I2V) models for flexible video editing. Our approach preserves background regions while enabling controllable edits propagation. This solution offers efficient and adaptable video editing without altering the model architecture. To better steer this process, we incorporate additional references, such as alternate viewpoints or representative scene states, which serve as visual anchors for how content should unfold. We address the control challenge using a mask-driven LoRA tuning strategy that adapts a pre-trained image-to-video model to the editing context. The model must learn from two distinct sources: the input video provides spatial structure and motion cues, while reference images offer appearance guidance. A spatial mask enables region-specific learning by dynamically modulating what the model attends to, ensuring that each area draws from the appropriate source. Experimental results show our method achieves superior video editing performance compared to state-of-the-art methods.
PDF42June 16, 2025