FRESCO: Corrispondenza Spazio-Temporale per la Traduzione Video Zero-Shot

Abstract

La straordinaria efficacia dei modelli di diffusione testo-immagine ha motivato un'ampia esplorazione del loro potenziale applicativo nei domini video. I metodi zero-shot mirano a estendere i modelli di diffusione per immagini ai video senza necessitare di addestramento del modello. I metodi recenti si concentrano principalmente sull'incorporazione della corrispondenza inter-fotogramma nei meccanismi di attenzione. Tuttavia, il vincolo morbido imposto nel determinare dove focalizzare l'attenzione per individuare caratteristiche valide può talvolta rivelarsi insufficiente, portando a incoerenze temporali. In questo articolo, introduciamo FRESCO, che combina la corrispondenza intra-fotogramma con quella inter-fotogramma per stabilire un vincolo spazio-temporale più robusto. Questo miglioramento garantisce una trasformazione più coerente di contenuti semanticamente simili tra i fotogrammi. Oltre alla semplice guida dell'attenzione, il nostro approccio prevede un aggiornamento esplicito delle caratteristiche per ottenere un'elevata coerenza spazio-temporale con il video di input, migliorando significativamente la coerenza visiva dei video tradotti risultanti. Esperimenti estensivi dimostrano l'efficacia del nostro framework proposto nella produzione di video di alta qualità e coerenti, segnando un miglioramento significativo rispetto ai metodi zero-shot esistenti.

English

The remarkable efficacy of text-to-image diffusion models has motivated extensive exploration of their potential application in video domains. Zero-shot methods seek to extend image diffusion models to videos without necessitating model training. Recent methods mainly focus on incorporating inter-frame correspondence into attention mechanisms. However, the soft constraint imposed on determining where to attend to valid features can sometimes be insufficient, resulting in temporal inconsistency. In this paper, we introduce FRESCO, intra-frame correspondence alongside inter-frame correspondence to establish a more robust spatial-temporal constraint. This enhancement ensures a more consistent transformation of semantically similar content across frames. Beyond mere attention guidance, our approach involves an explicit update of features to achieve high spatial-temporal consistency with the input video, significantly improving the visual coherence of the resulting translated videos. Extensive experiments demonstrate the effectiveness of our proposed framework in producing high-quality, coherent videos, marking a notable improvement over existing zero-shot methods.

FRESCO: Corrispondenza Spazio-Temporale per la Traduzione Video Zero-Shot

FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

Abstract

Support