Calibração de Ruído: Aprimoramento de Vídeo Plug-and-Play Preservando Conteúdo usando Modelos de Difusão de Vídeo Pré-treinados
Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models
July 14, 2024
Autores: Qinyu Yang, Haoxin Chen, Yong Zhang, Menghan Xia, Xiaodong Cun, Zhixun Su, Ying Shan
cs.AI
Resumo
Para melhorar a qualidade de vídeos sintetizados, atualmente, um método predominante envolve o retratamento de um modelo de difusão especialista e, em seguida, a implementação de um processo de adição de ruído e remoção de ruído para refinamento. Apesar dos custos significativos de treinamento, manter a consistência de conteúdo entre os vídeos originais e aprimorados continua sendo um desafio importante. Para enfrentar esse desafio, propomos uma formulação inovadora que considera tanto a qualidade visual quanto a consistência de conteúdo. A consistência de conteúdo é garantida por uma função de perda proposta que mantém a estrutura da entrada, enquanto a qualidade visual é aprimorada ao utilizar o processo de remoção de ruído de modelos de difusão pré-treinados. Para abordar o problema de otimização formulado, desenvolvemos uma estratégia de otimização de ruído plug-and-play, referida como Calibração de Ruído. Ao refinar o ruído aleatório inicial por meio de algumas iterações, o conteúdo do vídeo original pode ser amplamente preservado, e o efeito de aprimoramento demonstra uma melhoria notável. Experimentos extensivos têm demonstrado a eficácia do método proposto.
English
In order to improve the quality of synthesized videos, currently, one
predominant method involves retraining an expert diffusion model and then
implementing a noising-denoising process for refinement. Despite the
significant training costs, maintaining consistency of content between the
original and enhanced videos remains a major challenge. To tackle this
challenge, we propose a novel formulation that considers both visual quality
and consistency of content. Consistency of content is ensured by a proposed
loss function that maintains the structure of the input, while visual quality
is improved by utilizing the denoising process of pretrained diffusion models.
To address the formulated optimization problem, we have developed a
plug-and-play noise optimization strategy, referred to as Noise Calibration. By
refining the initial random noise through a few iterations, the content of
original video can be largely preserved, and the enhancement effect
demonstrates a notable improvement. Extensive experiments have demonstrated the
effectiveness of the proposed method.