ChatPaper.aiChatPaper

FRESCO: Räumlich-zeitliche Entsprechung für die Übersetzung von Videos ohne vorheriges Training

FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

March 19, 2024
Autoren: Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy
cs.AI

Zusammenfassung

Die bemerkenswerte Wirksamkeit von Text-zu-Bild-Diffusionsmodellen hat umfangreiche Erkundungen zu ihrer potenziellen Anwendung in Videobereichen angeregt. Zero-Shot-Methoden zielen darauf ab, Bild-Diffusionsmodelle auf Videos zu erweitern, ohne dass ein Modelltraining erforderlich ist. Aktuelle Methoden konzentrieren sich hauptsächlich darauf, Inter-Frame-Korrespondenz in Aufmerksamkeitsmechanismen zu integrieren. Die weiche Einschränkung bei der Bestimmung, auf welche gültigen Merkmale zugegriffen werden soll, kann jedoch manchmal unzureichend sein und zu zeitlicher Inkonsistenz führen. In diesem Papier stellen wir FRESCO vor, eine Intra-Frame-Korrespondenz neben der Inter-Frame-Korrespondenz, um eine robustere räumlich-zeitliche Einschränkung herzustellen. Diese Verbesserung gewährleistet eine konsistentere Transformation semantisch ähnlicher Inhalte über Frames hinweg. Über bloße Aufmerksamkeitsführung hinaus beinhaltet unser Ansatz ein explizites Update von Merkmalen, um eine hohe räumlich-zeitliche Konsistenz mit dem Eingangsvideo zu erreichen und die visuelle Kohärenz der resultierenden übersetzten Videos signifikant zu verbessern. Umfangreiche Experimente zeigen die Wirksamkeit unseres vorgeschlagenen Rahmens bei der Erzeugung hochwertiger, kohärenter Videos und markieren eine bemerkenswerte Verbesserung gegenüber bestehenden Zero-Shot-Methoden.
English
The remarkable efficacy of text-to-image diffusion models has motivated extensive exploration of their potential application in video domains. Zero-shot methods seek to extend image diffusion models to videos without necessitating model training. Recent methods mainly focus on incorporating inter-frame correspondence into attention mechanisms. However, the soft constraint imposed on determining where to attend to valid features can sometimes be insufficient, resulting in temporal inconsistency. In this paper, we introduce FRESCO, intra-frame correspondence alongside inter-frame correspondence to establish a more robust spatial-temporal constraint. This enhancement ensures a more consistent transformation of semantically similar content across frames. Beyond mere attention guidance, our approach involves an explicit update of features to achieve high spatial-temporal consistency with the input video, significantly improving the visual coherence of the resulting translated videos. Extensive experiments demonstrate the effectiveness of our proposed framework in producing high-quality, coherent videos, marking a notable improvement over existing zero-shot methods.

Summary

AI-Generated Summary

PDF81December 15, 2024