Guardando Indietro: Traduzione Video-to-Video in Streaming con Banche di Funzionalità
Looking Backward: Streaming Video-to-Video Translation with Feature Banks
May 24, 2024
Autori: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu
cs.AI
Abstract
Questo articolo introduce StreamV2V, un modello di diffusione che realizza la traduzione video-to-video (V2V) in tempo reale con prompt utente. A differenza dei precedenti metodi V2V che utilizzano batch per elaborare un numero limitato di frame, abbiamo scelto di elaborare i frame in modalità streaming, per supportare un numero illimitato di frame. Al centro di StreamV2V risiede un principio retrospettivo che collega il presente al passato. Questo è realizzato mantenendo una banca delle feature, che archivia informazioni dai frame passati. Per i frame in arrivo, StreamV2V estende l'auto-attenzione per includere chiavi e valori archiviati e fonde direttamente feature simili del passato nell'output. La banca delle feature viene continuamente aggiornata unendo feature memorizzate e nuove, rendendola compatta ma informativa. StreamV2V si distingue per la sua adattabilità ed efficienza, integrandosi perfettamente con i modelli di diffusione di immagini senza necessità di fine-tuning. Può eseguire 20 FPS su una GPU A100, essendo rispettivamente 15x, 46x, 108x e 158x più veloce di FlowVid, CoDeF, Rerender e TokenFlow. Metriche quantitative e studi sugli utenti confermano l'eccezionale capacità di StreamV2V nel mantenere la coerenza temporale.
English
This paper introduces StreamV2V, a diffusion model that achieves real-time
streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V
methods using batches to process limited frames, we opt to process frames in a
streaming fashion, to support unlimited frames. At the heart of StreamV2V lies
a backward-looking principle that relates the present to the past. This is
realized by maintaining a feature bank, which archives information from past
frames. For incoming frames, StreamV2V extends self-attention to include banked
keys and values and directly fuses similar past features into the output. The
feature bank is continually updated by merging stored and new features, making
it compact but informative. StreamV2V stands out for its adaptability and
efficiency, seamlessly integrating with image diffusion models without
fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x
faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative
metrics and user studies confirm StreamV2V's exceptional ability to maintain
temporal consistency.