ChatPaper.aiChatPaper

FRESCO: Ruimtelijk-temporele correspondentie voor zero-shot videotranslaties

FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

March 19, 2024
Auteurs: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI

Samenvatting

De opmerkelijke effectiviteit van tekst-naar-beeld diffusiemodellen heeft uitgebreid onderzoek gestimuleerd naar hun potentiële toepassing in videodomeinen. Zero-shot methoden streven ernaar beelddiffusiemodellen uit te breiden naar video's zonder dat modeltraining nodig is. Recente methoden richten zich voornamelijk op het integreren van inter-frame correspondentie in aandachtmechanismen. De zachte beperking die wordt opgelegd bij het bepalen waar naar geldige kenmerken moet worden gekeken, kan echter soms onvoldoende zijn, wat resulteert in temporele inconsistentie. In dit artikel introduceren we FRESCO, waarbij intra-frame correspondentie naast inter-frame correspondentie wordt gebruikt om een robuustere ruimtelijk-temporele beperking te creëren. Deze verbetering zorgt voor een consistentere transformatie van semantisch vergelijkbare inhoud over frames heen. Naast louter aandachtbegeleiding omvat onze aanpak een expliciete update van kenmerken om een hoge ruimtelijk-temporele consistentie met de invoervideo te bereiken, wat de visuele samenhang van de resulterende vertaalde video's aanzienlijk verbetert. Uitgebreide experimenten tonen de effectiviteit aan van ons voorgestelde framework bij het produceren van hoogwaardige, samenhangende video's, wat een opmerkelijke verbetering betekent ten opzichte van bestaande zero-shot methoden.
English
The remarkable efficacy of text-to-image diffusion models has motivated extensive exploration of their potential application in video domains. Zero-shot methods seek to extend image diffusion models to videos without necessitating model training. Recent methods mainly focus on incorporating inter-frame correspondence into attention mechanisms. However, the soft constraint imposed on determining where to attend to valid features can sometimes be insufficient, resulting in temporal inconsistency. In this paper, we introduce FRESCO, intra-frame correspondence alongside inter-frame correspondence to establish a more robust spatial-temporal constraint. This enhancement ensures a more consistent transformation of semantically similar content across frames. Beyond mere attention guidance, our approach involves an explicit update of features to achieve high spatial-temporal consistency with the input video, significantly improving the visual coherence of the resulting translated videos. Extensive experiments demonstrate the effectiveness of our proposed framework in producing high-quality, coherent videos, marking a notable improvement over existing zero-shot methods.
PDF91February 9, 2026