NaRCan: Immagine Canonica Raffinata Naturale con Integrazione del Prior di Diffusione per l'Editing Video
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing
June 10, 2024
Autori: Ting-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh, Yu-Lun Liu
cs.AI
Abstract
Proponiamo un framework per l'editing video, NaRCan, che integra un campo di deformazione ibrido e un prior di diffusione per generare immagini canoniche naturali di alta qualità che rappresentano il video di input. Il nostro approccio utilizza l'omografia per modellare il movimento globale e impiega perceptroni multistrato (MLP) per catturare le deformazioni residue locali, migliorando la capacità del modello di gestire dinamiche video complesse. Introducendo un prior di diffusione sin dalle prime fasi dell'addestramento, il nostro modello garantisce che le immagini generate mantengano un aspetto naturale di alta qualità, rendendo le immagini canoniche prodotte adatte a varie attività di editing video, una capacità non raggiunta dai metodi canonici attuali. Inoltre, incorporiamo un fine-tuning tramite adattamento a basso rango (LoRA) e introduciamo una tecnica di aggiornamento programmato del rumore e del prior di diffusione che accelera il processo di addestramento di 14 volte. I risultati sperimentali estesi dimostrano che il nostro metodo supera gli approcci esistenti in varie attività di editing video e produce sequenze video modificate coerenti e di alta qualità. Consulta la nostra pagina del progetto per i risultati video all'indirizzo https://koi953215.github.io/NaRCan_page/.
English
We propose a video editing framework, NaRCan, which integrates a hybrid
deformation field and diffusion prior to generate high-quality natural
canonical images to represent the input video. Our approach utilizes homography
to model global motion and employs multi-layer perceptrons (MLPs) to capture
local residual deformations, enhancing the model's ability to handle complex
video dynamics. By introducing a diffusion prior from the early stages of
training, our model ensures that the generated images retain a high-quality
natural appearance, making the produced canonical images suitable for various
downstream tasks in video editing, a capability not achieved by current
canonical-based methods. Furthermore, we incorporate low-rank adaptation (LoRA)
fine-tuning and introduce a noise and diffusion prior update scheduling
technique that accelerates the training process by 14 times. Extensive
experimental results show that our method outperforms existing approaches in
various video editing tasks and produces coherent and high-quality edited video
sequences. See our project page for video results at
https://koi953215.github.io/NaRCan_page/.