Calibrazione del Rumore: Miglioramento Video Preservante il Contenuto Plug-and-Play utilizzando Modelli di Diffusione Video Pre-addestrati
Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models
July 14, 2024
Autori: Qinyu Yang, Haoxin Chen, Yong Zhang, Menghan Xia, Xiaodong Cun, Zhixun Su, Ying Shan
cs.AI
Abstract
Per migliorare la qualità dei video sintetizzati, attualmente un metodo predominante prevede il riaddestramento di un modello di diffusione esperto e l'implementazione di un processo di rumore-denisso per il perfezionamento. Nonostante i costi significativi di addestramento, mantenere la coerenza del contenuto tra i video originali e quelli migliorati rimane una sfida importante. Per affrontare questa sfida, proponiamo una nuova formulazione che considera sia la qualità visiva che la coerenza del contenuto. La coerenza del contenuto è garantita da una funzione di perdita proposta che mantiene la struttura dell'input, mentre la qualità visiva è migliorata sfruttando il processo di denisso dei modelli di diffusione preaddestrati. Per risolvere il problema di ottimizzazione formulato, abbiamo sviluppato una strategia di ottimizzazione del rumore plug-and-play, denominata Calibrazione del Rumore. Affinando il rumore casuale iniziale attraverso poche iterazioni, il contenuto del video originale può essere ampiamente preservato e l'effetto di miglioramento dimostra un notevole progresso. Esperimenti estesi hanno dimostrato l'efficacia del metodo proposto.
English
In order to improve the quality of synthesized videos, currently, one
predominant method involves retraining an expert diffusion model and then
implementing a noising-denoising process for refinement. Despite the
significant training costs, maintaining consistency of content between the
original and enhanced videos remains a major challenge. To tackle this
challenge, we propose a novel formulation that considers both visual quality
and consistency of content. Consistency of content is ensured by a proposed
loss function that maintains the structure of the input, while visual quality
is improved by utilizing the denoising process of pretrained diffusion models.
To address the formulated optimization problem, we have developed a
plug-and-play noise optimization strategy, referred to as Noise Calibration. By
refining the initial random noise through a few iterations, the content of
original video can be largely preserved, and the enhancement effect
demonstrates a notable improvement. Extensive experiments have demonstrated the
effectiveness of the proposed method.