FRESCO: Corrispondenza Spazio-Temporale per la Traduzione Video Zero-Shot
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation
March 19, 2024
Autori: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI
Abstract
La straordinaria efficacia dei modelli di diffusione testo-immagine ha motivato un'ampia esplorazione del loro potenziale applicativo nei domini video. I metodi zero-shot mirano a estendere i modelli di diffusione per immagini ai video senza necessitare di addestramento del modello. I metodi recenti si concentrano principalmente sull'incorporazione della corrispondenza inter-fotogramma nei meccanismi di attenzione. Tuttavia, il vincolo morbido imposto nel determinare dove focalizzare l'attenzione per individuare caratteristiche valide può talvolta rivelarsi insufficiente, portando a incoerenze temporali. In questo articolo, introduciamo FRESCO, che combina la corrispondenza intra-fotogramma con quella inter-fotogramma per stabilire un vincolo spazio-temporale più robusto. Questo miglioramento garantisce una trasformazione più coerente di contenuti semanticamente simili tra i fotogrammi. Oltre alla semplice guida dell'attenzione, il nostro approccio prevede un aggiornamento esplicito delle caratteristiche per ottenere un'elevata coerenza spazio-temporale con il video di input, migliorando significativamente la coerenza visiva dei video tradotti risultanti. Esperimenti estensivi dimostrano l'efficacia del nostro framework proposto nella produzione di video di alta qualità e coerenti, segnando un miglioramento significativo rispetto ai metodi zero-shot esistenti.
English
The remarkable efficacy of text-to-image diffusion models has motivated
extensive exploration of their potential application in video domains.
Zero-shot methods seek to extend image diffusion models to videos without
necessitating model training. Recent methods mainly focus on incorporating
inter-frame correspondence into attention mechanisms. However, the soft
constraint imposed on determining where to attend to valid features can
sometimes be insufficient, resulting in temporal inconsistency. In this paper,
we introduce FRESCO, intra-frame correspondence alongside inter-frame
correspondence to establish a more robust spatial-temporal constraint. This
enhancement ensures a more consistent transformation of semantically similar
content across frames. Beyond mere attention guidance, our approach involves an
explicit update of features to achieve high spatial-temporal consistency with
the input video, significantly improving the visual coherence of the resulting
translated videos. Extensive experiments demonstrate the effectiveness of our
proposed framework in producing high-quality, coherent videos, marking a
notable improvement over existing zero-shot methods.