ChatPaper.aiChatPaper

Rückblick: Streaming Video-zu-Video-Übersetzung mit Merkmalsbanken

Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24, 2024
Autoren: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu
cs.AI

Zusammenfassung

Dieses Paper stellt StreamV2V vor, ein Diffusionsmodell, das Echtzeit-Streaming-Video-zu-Video (V2V) Übersetzungen mit Benutzeranfragen ermöglicht. Im Gegensatz zu früheren V2V-Methoden, die Chargen zur Verarbeitung begrenzter Frames verwenden, entscheiden wir uns dafür, Frames kontinuierlich zu verarbeiten, um eine unbegrenzte Anzahl von Frames zu unterstützen. Im Zentrum von StreamV2V liegt ein rückblickendes Prinzip, das die Gegenwart mit der Vergangenheit verknüpft. Dies wird durch die Aufrechterhaltung einer Merkmalsbank realisiert, die Informationen aus vergangenen Frames archiviert. Für eingehende Frames erweitert StreamV2V die Selbst-Aufmerksamkeit, um bankierte Schlüssel und Werte einzubeziehen und ähnliche vergangene Merkmale direkt in die Ausgabe zu integrieren. Die Merkmalsbank wird kontinuierlich aktualisiert, indem gespeicherte und neue Merkmale fusioniert werden, was sie kompakt, aber informativ macht. StreamV2V zeichnet sich durch seine Anpassungsfähigkeit und Effizienz aus, indem es nahtlos mit Bild-Diffusionsmodellen ohne Feinabstimmung integriert werden kann. Es kann mit einer A100 GPU 20 FPS erreichen und ist damit 15x, 46x, 108x und 158x schneller als FlowVid, CoDeF, Rerender und TokenFlow, jeweils. Quantitative Metriken und Benutzerstudien bestätigen die außergewöhnliche Fähigkeit von StreamV2V, die zeitliche Konsistenz aufrechtzuerhalten.
English
This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.

Summary

AI-Generated Summary

PDF162December 12, 2024