FRESCO: Correspondencia Espacio-Temporal para la Traducción de Video Zero-Shot
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation
March 19, 2024
Autores: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI
Resumen
La notable eficacia de los modelos de difusión de texto a imagen ha motivado una extensa exploración de su potencial aplicación en dominios de video. Los métodos de cero disparos buscan extender los modelos de difusión de imagen a videos sin necesidad de entrenamiento del modelo. Los métodos recientes se centran principalmente en incorporar correspondencia inter-fotograma en los mecanismos de atención. Sin embargo, la restricción suave impuesta al determinar dónde atender a características válidas puede ser a veces insuficiente, resultando en inconsistencia temporal. En este artículo, presentamos FRESCO, que combina correspondencia intra-fotograma junto con correspondencia inter-fotograma para establecer una restricción espacio-temporal más robusta. Esta mejora asegura una transformación más consistente de contenido semánticamente similar a través de los fotogramas. Más allá de la mera guía de atención, nuestro enfoque implica una actualización explícita de las características para lograr una alta consistencia espacio-temporal con el video de entrada, mejorando significativamente la coherencia visual de los videos traducidos resultantes. Experimentos extensos demuestran la efectividad de nuestro marco propuesto en la producción de videos de alta calidad y coherentes, marcando una mejora notable sobre los métodos existentes de cero disparos.
English
The remarkable efficacy of text-to-image diffusion models has motivated
extensive exploration of their potential application in video domains.
Zero-shot methods seek to extend image diffusion models to videos without
necessitating model training. Recent methods mainly focus on incorporating
inter-frame correspondence into attention mechanisms. However, the soft
constraint imposed on determining where to attend to valid features can
sometimes be insufficient, resulting in temporal inconsistency. In this paper,
we introduce FRESCO, intra-frame correspondence alongside inter-frame
correspondence to establish a more robust spatial-temporal constraint. This
enhancement ensures a more consistent transformation of semantically similar
content across frames. Beyond mere attention guidance, our approach involves an
explicit update of features to achieve high spatial-temporal consistency with
the input video, significantly improving the visual coherence of the resulting
translated videos. Extensive experiments demonstrate the effectiveness of our
proposed framework in producing high-quality, coherent videos, marking a
notable improvement over existing zero-shot methods.Summary
AI-Generated Summary