ChatPaper.aiChatPaper

NaRCan: Imagen Canónica Refinada Natural con Integración de Prior de Difusión para Edición de Video

NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

June 10, 2024
Autores: Ting-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh, Yu-Lun Liu
cs.AI

Resumen

Proponemos un marco de edición de vídeo, NaRCan, que integra un campo de deformación híbrido y un prior de difusión para generar imágenes canónicas naturales de alta calidad que representen el vídeo de entrada. Nuestro enfoque utiliza homografía para modelar el movimiento global y emplea perceptrones multicapa (MLPs) para capturar deformaciones residuales locales, mejorando la capacidad del modelo para manejar dinámicas de vídeo complejas. Al introducir un prior de difusión desde las primeras etapas del entrenamiento, nuestro modelo garantiza que las imágenes generadas mantengan una apariencia natural de alta calidad, haciendo que las imágenes canónicas producidas sean adecuadas para diversas tareas posteriores en la edición de vídeo, una capacidad no alcanzada por los métodos basados en canónicos actuales. Además, incorporamos un ajuste fino de adaptación de bajo rango (LoRA) e introducimos una técnica de programación de actualización de ruido y prior de difusión que acelera el proceso de entrenamiento en 14 veces. Los resultados experimentales extensivos muestran que nuestro método supera a los enfoques existentes en diversas tareas de edición de vídeo y produce secuencias de vídeo editadas coherentes y de alta calidad. Consulte nuestra página del proyecto para ver los resultados en vídeo en https://koi953215.github.io/NaRCan_page/.
English
We propose a video editing framework, NaRCan, which integrates a hybrid deformation field and diffusion prior to generate high-quality natural canonical images to represent the input video. Our approach utilizes homography to model global motion and employs multi-layer perceptrons (MLPs) to capture local residual deformations, enhancing the model's ability to handle complex video dynamics. By introducing a diffusion prior from the early stages of training, our model ensures that the generated images retain a high-quality natural appearance, making the produced canonical images suitable for various downstream tasks in video editing, a capability not achieved by current canonical-based methods. Furthermore, we incorporate low-rank adaptation (LoRA) fine-tuning and introduce a noise and diffusion prior update scheduling technique that accelerates the training process by 14 times. Extensive experimental results show that our method outperforms existing approaches in various video editing tasks and produces coherent and high-quality edited video sequences. See our project page for video results at https://koi953215.github.io/NaRCan_page/.

Summary

AI-Generated Summary

PDF532December 8, 2024