ChatPaper.aiChatPaper

LoRA-Edit: Edición de Video Guiada por el Primer Fotograma Controlable mediante Ajuste Fino de LoRA Consciente de la Máscara

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

June 11, 2025
Autores: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
cs.AI

Resumen

La edición de videos utilizando modelos de difusión ha logrado resultados notables en la generación de ediciones de alta calidad para videos. Sin embargo, los métodos actuales suelen depender de un preentrenamiento a gran escala, lo que limita la flexibilidad para ediciones específicas. La edición guiada por el primer fotograma proporciona control sobre el primer fotograma, pero carece de flexibilidad sobre los fotogramas subsiguientes. Para abordar esto, proponemos un método de ajuste basado en máscaras utilizando LoRA (Low-Rank Adaptation) que adapta modelos preentrenados de Imagen a Video (I2V) para una edición de video flexible. Nuestro enfoque preserva las regiones del fondo mientras permite la propagación controlada de las ediciones. Esta solución ofrece una edición de video eficiente y adaptable sin alterar la arquitectura del modelo. Para guiar mejor este proceso, incorporamos referencias adicionales, como puntos de vista alternativos o estados representativos de la escena, que sirven como anclajes visuales para cómo debería desarrollarse el contenido. Abordamos el desafío de control utilizando una estrategia de ajuste LoRA basada en máscaras que adapta un modelo preentrenado de imagen a video al contexto de edición. El modelo debe aprender de dos fuentes distintas: el video de entrada proporciona estructura espacial y pistas de movimiento, mientras que las imágenes de referencia ofrecen guía de apariencia. Una máscara espacial permite el aprendizaje específico de la región al modular dinámicamente a qué atiende el modelo, asegurando que cada área se base en la fuente apropiada. Los resultados experimentales muestran que nuestro método logra un rendimiento superior en la edición de videos en comparación con los métodos más avanzados.
English
Video editing using diffusion models has achieved remarkable results in generating high-quality edits for videos. However, current methods often rely on large-scale pretraining, limiting flexibility for specific edits. First-frame-guided editing provides control over the first frame, but lacks flexibility over subsequent frames. To address this, we propose a mask-based LoRA (Low-Rank Adaptation) tuning method that adapts pretrained Image-to-Video (I2V) models for flexible video editing. Our approach preserves background regions while enabling controllable edits propagation. This solution offers efficient and adaptable video editing without altering the model architecture. To better steer this process, we incorporate additional references, such as alternate viewpoints or representative scene states, which serve as visual anchors for how content should unfold. We address the control challenge using a mask-driven LoRA tuning strategy that adapts a pre-trained image-to-video model to the editing context. The model must learn from two distinct sources: the input video provides spatial structure and motion cues, while reference images offer appearance guidance. A spatial mask enables region-specific learning by dynamically modulating what the model attends to, ensuring that each area draws from the appropriate source. Experimental results show our method achieves superior video editing performance compared to state-of-the-art methods.
PDF42June 16, 2025