ChatPaper.aiChatPaper

Terugkijken: Streaming Video-naar-Video Vertaling met Functiebanken

Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24, 2024
Auteurs: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu
cs.AI

Samenvatting

Dit artikel introduceert StreamV2V, een diffusiemodel dat realtime streaming video-naar-video (V2V) vertaling mogelijk maakt met gebruikersprompts. In tegenstelling tot eerdere V2V-methoden die batches gebruiken om een beperkt aantal frames te verwerken, kiezen wij ervoor om frames in een streaming-stijl te verwerken, om een onbeperkt aantal frames te ondersteunen. De kern van StreamV2V ligt in een terugblikkend principe dat het heden relateert aan het verleden. Dit wordt gerealiseerd door het onderhouden van een kenmerkbank, die informatie uit vorige frames archiveert. Voor binnenkomende frames breidt StreamV2V zelf-attentie uit om opgeslagen sleutels en waarden te includeren en fuseert direct vergelijkbare eerdere kenmerken in de uitvoer. De kenmerkbank wordt continu bijgewerkt door opgeslagen en nieuwe kenmerken samen te voegen, waardoor deze compact maar informatief blijft. StreamV2V onderscheidt zich door zijn aanpassingsvermogen en efficiëntie, en integreert naadloos met beelddiffusiemodellen zonder fine-tuning. Het kan 20 FPS draaien op één A100 GPU, wat respectievelijk 15x, 46x, 108x en 158x sneller is dan FlowVid, CoDeF, Rerender en TokenFlow. Kwantitatieve metingen en gebruikersstudies bevestigen de uitzonderlijke vaardigheid van StreamV2V om temporele consistentie te behouden.
English
This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.
PDF152February 8, 2026