ChatPaper.aiChatPaper

LoRA-Edit: Управляемое редактирование видео с использованием направляющего первого кадра через маскированную тонкую настройку LoRA

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

June 11, 2025
Авторы: Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue
cs.AI

Аннотация

Редактирование видео с использованием диффузионных моделей достигло значительных успехов в создании высококачественных изменений для видеоматериалов. Однако современные методы часто полагаются на масштабное предварительное обучение, что ограничивает гибкость для специфических правок. Редактирование с управлением по первому кадру обеспечивает контроль над начальным кадром, но не предоставляет гибкости для последующих кадров. Для решения этой проблемы мы предлагаем метод настройки LoRA (Low-Rank Adaptation) на основе масок, который адаптирует предварительно обученные модели Image-to-Video (I2V) для гибкого редактирования видео. Наш подход сохраняет фоновые области, одновременно обеспечивая контролируемое распространение изменений. Это решение предлагает эффективное и адаптируемое редактирование видео без изменения архитектуры модели. Для более точного управления процессом мы включаем дополнительные референсы, такие как альтернативные точки зрения или репрезентативные состояния сцены, которые служат визуальными якорями для того, как должен разворачиваться контент. Мы решаем задачу управления с помощью стратегии настройки LoRA, управляемой масками, которая адаптирует предварительно обученную модель image-to-video к контексту редактирования. Модель должна обучаться на двух различных источниках: входное видео предоставляет пространственную структуру и подсказки движения, а референсные изображения предлагают руководство по внешнему виду. Пространственная маска позволяет осуществлять обучение для конкретных областей, динамически модулируя то, на что обращает внимание модель, обеспечивая, чтобы каждая область черпала информацию из соответствующего источника. Экспериментальные результаты показывают, что наш метод превосходит современные методы по качеству редактирования видео.
English
Video editing using diffusion models has achieved remarkable results in generating high-quality edits for videos. However, current methods often rely on large-scale pretraining, limiting flexibility for specific edits. First-frame-guided editing provides control over the first frame, but lacks flexibility over subsequent frames. To address this, we propose a mask-based LoRA (Low-Rank Adaptation) tuning method that adapts pretrained Image-to-Video (I2V) models for flexible video editing. Our approach preserves background regions while enabling controllable edits propagation. This solution offers efficient and adaptable video editing without altering the model architecture. To better steer this process, we incorporate additional references, such as alternate viewpoints or representative scene states, which serve as visual anchors for how content should unfold. We address the control challenge using a mask-driven LoRA tuning strategy that adapts a pre-trained image-to-video model to the editing context. The model must learn from two distinct sources: the input video provides spatial structure and motion cues, while reference images offer appearance guidance. A spatial mask enables region-specific learning by dynamically modulating what the model attends to, ensuring that each area draws from the appropriate source. Experimental results show our method achieves superior video editing performance compared to state-of-the-art methods.
PDF42June 16, 2025