FRESCO: Correspondência Espaço-Temporal para Tradução de Vídeo Zero-Shot
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation
March 19, 2024
Autores: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI
Resumo
A notável eficácia dos modelos de difusão de texto para imagem tem motivado uma extensa exploração de seu potencial aplicação em domínios de vídeo. Métodos zero-shot buscam estender modelos de difusão de imagem para vídeos sem a necessidade de treinamento do modelo. Métodos recentes concentram-se principalmente na incorporação de correspondência inter-quadros em mecanismos de atenção. No entanto, a restrição suave imposta na determinação de onde atentar para características válidas pode, por vezes, ser insuficiente, resultando em inconsistência temporal. Neste artigo, introduzimos o FRESCO, que combina correspondência intra-quadro com correspondência inter-quadro para estabelecer uma restrição espaço-temporal mais robusta. Esse aprimoramento garante uma transformação mais consistente de conteúdo semanticamente similar entre os quadros. Além de meramente guiar a atenção, nossa abordagem envolve uma atualização explícita das características para alcançar alta consistência espaço-temporal com o vídeo de entrada, melhorando significativamente a coerência visual dos vídeos traduzidos resultantes. Experimentos extensivos demonstram a eficácia do nosso framework proposto na produção de vídeos de alta qualidade e coerentes, marcando uma melhoria notável em relação aos métodos zero-shot existentes.
English
The remarkable efficacy of text-to-image diffusion models has motivated
extensive exploration of their potential application in video domains.
Zero-shot methods seek to extend image diffusion models to videos without
necessitating model training. Recent methods mainly focus on incorporating
inter-frame correspondence into attention mechanisms. However, the soft
constraint imposed on determining where to attend to valid features can
sometimes be insufficient, resulting in temporal inconsistency. In this paper,
we introduce FRESCO, intra-frame correspondence alongside inter-frame
correspondence to establish a more robust spatial-temporal constraint. This
enhancement ensures a more consistent transformation of semantically similar
content across frames. Beyond mere attention guidance, our approach involves an
explicit update of features to achieve high spatial-temporal consistency with
the input video, significantly improving the visual coherence of the resulting
translated videos. Extensive experiments demonstrate the effectiveness of our
proposed framework in producing high-quality, coherent videos, marking a
notable improvement over existing zero-shot methods.