ChatPaper.aiChatPaper

Mirando hacia atrás: Traducción de video a video en streaming con bancos de características

Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24, 2024
Autores: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu
cs.AI

Resumen

Este artículo presenta StreamV2V, un modelo de difusión que logra la traducción de video a video (V2V) en tiempo real con indicaciones del usuario. A diferencia de los métodos V2V anteriores que utilizan lotes para procesar un número limitado de fotogramas, optamos por procesar los fotogramas de manera continua, para admitir un número ilimitado de fotogramas. En el núcleo de StreamV2V se encuentra un principio retrospectivo que relaciona el presente con el pasado. Esto se realiza manteniendo un banco de características, que archiva información de fotogramas anteriores. Para los fotogramas entrantes, StreamV2V extiende la autoatención para incluir claves y valores almacenados y fusiona directamente características pasadas similares en la salida. El banco de características se actualiza continuamente fusionando características almacenadas y nuevas, lo que lo hace compacto pero informativo. StreamV2V destaca por su adaptabilidad y eficiencia, integrándose perfectamente con modelos de difusión de imágenes sin necesidad de ajustes finos. Puede ejecutarse a 20 FPS en una GPU A100, siendo 15x, 46x, 108x y 158x más rápido que FlowVid, CoDeF, Rerender y TokenFlow, respectivamente. Métricas cuantitativas y estudios de usuarios confirman la capacidad excepcional de StreamV2V para mantener la consistencia temporal.
English
This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.

Summary

AI-Generated Summary

PDF162December 12, 2024