ChatPaper.aiChatPaper

Regard en arrière : Traduction vidéo-à-vidéo en flux continu avec banques de caractéristiques

Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24, 2024
Auteurs: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu
cs.AI

Résumé

Cet article présente StreamV2V, un modèle de diffusion qui réalise une traduction vidéo-à-vidéo (V2V) en temps réel avec des invites utilisateur. Contrairement aux méthodes V2V antérieures qui utilisent des lots pour traiter un nombre limité d'images, nous choisissons de traiter les images en flux continu, afin de supporter un nombre illimité d'images. Au cœur de StreamV2V se trouve un principe rétrospectif qui relie le présent au passé. Cela est réalisé en maintenant une banque de caractéristiques, qui archive les informations des images passées. Pour les images entrantes, StreamV2V étend l'auto-attention pour inclure les clés et valeurs archivées et fusionne directement les caractéristiques passées similaires dans la sortie. La banque de caractéristiques est continuellement mise à jour en fusionnant les caractéristiques stockées et nouvelles, la rendant compacte mais informative. StreamV2V se distingue par son adaptabilité et son efficacité, s'intégrant de manière transparente avec les modèles de diffusion d'images sans nécessiter de réglage fin. Il peut fonctionner à 20 FPS sur une seule GPU A100, étant respectivement 15x, 46x, 108x et 158x plus rapide que FlowVid, CoDeF, Rerender et TokenFlow. Les métriques quantitatives et les études utilisateurs confirment la capacité exceptionnelle de StreamV2V à maintenir la cohérence temporelle.
English
This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.

Summary

AI-Generated Summary

PDF162December 12, 2024