ChatPaper.aiChatPaper

LoRA-Edit: Edição de Vídeo Controlada por Guia de Primeiro Quadro via Ajuste Fino LoRA com Consciência de Máscara

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

June 11, 2025
Autores: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
cs.AI

Resumo

A edição de vídeo utilizando modelos de difusão tem alcançado resultados notáveis na geração de edições de alta qualidade para vídeos. No entanto, os métodos atuais frequentemente dependem de pré-treinamento em larga escala, limitando a flexibilidade para edições específicas. A edição guiada pelo primeiro quadro oferece controle sobre o quadro inicial, mas carece de flexibilidade sobre os quadros subsequentes. Para resolver isso, propomos um método de ajuste baseado em máscara com LoRA (Low-Rank Adaptation) que adapta modelos pré-treinados de Imagem para Vídeo (I2V) para edição flexível de vídeos. Nossa abordagem preserva regiões de fundo enquanto permite a propagação controlada de edições. Essa solução oferece edição de vídeo eficiente e adaptável sem alterar a arquitetura do modelo. Para melhor direcionar esse processo, incorporamos referências adicionais, como pontos de vista alternativos ou estados representativos da cena, que servem como âncoras visuais para como o conteúdo deve se desdobrar. Abordamos o desafio de controle utilizando uma estratégia de ajuste LoRA orientada por máscara que adapta um modelo pré-treinado de imagem para vídeo ao contexto de edição. O modelo deve aprender a partir de duas fontes distintas: o vídeo de entrada fornece estrutura espacial e pistas de movimento, enquanto as imagens de referência oferecem orientação de aparência. Uma máscara espacial permite o aprendizado específico por região, modulando dinamicamente o que o modelo atende, garantindo que cada área se baseie na fonte apropriada. Resultados experimentais mostram que nosso método alcança desempenho superior em edição de vídeo comparado aos métodos state-of-the-art.
English
Video editing using diffusion models has achieved remarkable results in generating high-quality edits for videos. However, current methods often rely on large-scale pretraining, limiting flexibility for specific edits. First-frame-guided editing provides control over the first frame, but lacks flexibility over subsequent frames. To address this, we propose a mask-based LoRA (Low-Rank Adaptation) tuning method that adapts pretrained Image-to-Video (I2V) models for flexible video editing. Our approach preserves background regions while enabling controllable edits propagation. This solution offers efficient and adaptable video editing without altering the model architecture. To better steer this process, we incorporate additional references, such as alternate viewpoints or representative scene states, which serve as visual anchors for how content should unfold. We address the control challenge using a mask-driven LoRA tuning strategy that adapts a pre-trained image-to-video model to the editing context. The model must learn from two distinct sources: the input video provides spatial structure and motion cues, while reference images offer appearance guidance. A spatial mask enables region-specific learning by dynamically modulating what the model attends to, ensuring that each area draws from the appropriate source. Experimental results show our method achieves superior video editing performance compared to state-of-the-art methods.
PDF82June 16, 2025