NaRCan: Imagen Canónica Refinada Natural con Integración de Prior de Difusión para Edición de Video
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing
June 10, 2024
Autores: Ting-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh, Yu-Lun Liu
cs.AI
Resumen
Proponemos un marco de edición de vídeo, NaRCan, que integra un campo de deformación híbrido y un prior de difusión para generar imágenes canónicas naturales de alta calidad que representen el vídeo de entrada. Nuestro enfoque utiliza homografía para modelar el movimiento global y emplea perceptrones multicapa (MLPs) para capturar deformaciones residuales locales, mejorando la capacidad del modelo para manejar dinámicas de vídeo complejas. Al introducir un prior de difusión desde las primeras etapas del entrenamiento, nuestro modelo garantiza que las imágenes generadas mantengan una apariencia natural de alta calidad, haciendo que las imágenes canónicas producidas sean adecuadas para diversas tareas posteriores en la edición de vídeo, una capacidad no alcanzada por los métodos basados en canónicos actuales. Además, incorporamos un ajuste fino de adaptación de bajo rango (LoRA) e introducimos una técnica de programación de actualización de ruido y prior de difusión que acelera el proceso de entrenamiento en 14 veces. Los resultados experimentales extensivos muestran que nuestro método supera a los enfoques existentes en diversas tareas de edición de vídeo y produce secuencias de vídeo editadas coherentes y de alta calidad. Consulte nuestra página del proyecto para ver los resultados en vídeo en https://koi953215.github.io/NaRCan_page/.
English
We propose a video editing framework, NaRCan, which integrates a hybrid
deformation field and diffusion prior to generate high-quality natural
canonical images to represent the input video. Our approach utilizes homography
to model global motion and employs multi-layer perceptrons (MLPs) to capture
local residual deformations, enhancing the model's ability to handle complex
video dynamics. By introducing a diffusion prior from the early stages of
training, our model ensures that the generated images retain a high-quality
natural appearance, making the produced canonical images suitable for various
downstream tasks in video editing, a capability not achieved by current
canonical-based methods. Furthermore, we incorporate low-rank adaptation (LoRA)
fine-tuning and introduce a noise and diffusion prior update scheduling
technique that accelerates the training process by 14 times. Extensive
experimental results show that our method outperforms existing approaches in
various video editing tasks and produces coherent and high-quality edited video
sequences. See our project page for video results at
https://koi953215.github.io/NaRCan_page/.Summary
AI-Generated Summary