ChatPaper.aiChatPaper

LoRA-Edit: 마스크 인식 LoRA 미세 조정을 통한 첫 프레임 기반 제어 가능 비디오 편집

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

June 11, 2025
저자: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
cs.AI

초록

확산 모델을 활용한 비디오 편집은 고품질의 비디오 편집물을 생성하는 데 있어 뛰어난 성과를 거두었습니다. 그러나 현재의 방법들은 대규모 사전 학습에 의존하는 경우가 많아, 특정 편집에 대한 유연성이 제한됩니다. 첫 번째 프레임을 기반으로 한 편집은 첫 프레임에 대한 제어를 제공하지만, 이후 프레임들에 대한 유연성이 부족합니다. 이를 해결하기 위해, 우리는 사전 학습된 이미지-투-비디오(I2V) 모델을 유연한 비디오 편집에 적응시키는 마스크 기반 LoRA(Low-Rank Adaptation) 튜닝 방법을 제안합니다. 우리의 접근 방식은 배경 영역을 보존하면서도 제어 가능한 편집 전파를 가능하게 합니다. 이 솔루션은 모델 구조를 변경하지 않고도 효율적이고 적응 가능한 비디오 편집을 제공합니다. 이 과정을 더 잘 조종하기 위해, 우리는 대체 시점이나 대표적인 장면 상태와 같은 추가 참조를 통합하여, 콘텐츠가 어떻게 전개되어야 하는지에 대한 시각적 앵커 역할을 하도록 합니다. 우리는 사전 학습된 이미지-투-비디오 모델을 편집 컨텍스트에 적응시키는 마스크 기반 LoRA 튜닝 전략을 사용하여 제어 문제를 해결합니다. 모델은 두 가지 구별되는 소스로부터 학습해야 합니다: 입력 비디오는 공간 구조와 모션 단서를 제공하고, 참조 이미지는 외관 지침을 제공합니다. 공간 마스크는 모델이 주의를 기울이는 것을 동적으로 조절함으로써 영역별 학습을 가능하게 하여, 각 영역이 적절한 소스로부터 정보를 얻도록 합니다. 실험 결과는 우리의 방법이 최신 기술과 비교하여 우수한 비디오 편집 성능을 달성함을 보여줍니다.
English
Video editing using diffusion models has achieved remarkable results in generating high-quality edits for videos. However, current methods often rely on large-scale pretraining, limiting flexibility for specific edits. First-frame-guided editing provides control over the first frame, but lacks flexibility over subsequent frames. To address this, we propose a mask-based LoRA (Low-Rank Adaptation) tuning method that adapts pretrained Image-to-Video (I2V) models for flexible video editing. Our approach preserves background regions while enabling controllable edits propagation. This solution offers efficient and adaptable video editing without altering the model architecture. To better steer this process, we incorporate additional references, such as alternate viewpoints or representative scene states, which serve as visual anchors for how content should unfold. We address the control challenge using a mask-driven LoRA tuning strategy that adapts a pre-trained image-to-video model to the editing context. The model must learn from two distinct sources: the input video provides spatial structure and motion cues, while reference images offer appearance guidance. A spatial mask enables region-specific learning by dynamically modulating what the model attends to, ensuring that each area draws from the appropriate source. Experimental results show our method achieves superior video editing performance compared to state-of-the-art methods.
PDF42June 16, 2025