ChatPaper.aiChatPaper

振り返り型ストリーミング:特徴量バンクを用いたビデオ間変換

Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24, 2024
著者: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu
cs.AI

要旨

本論文では、ユーザープロンプトを用いたリアルタイムストリーミングビデオ・ツー・ビデオ(V2V)変換を実現する拡散モデル、StreamV2Vを紹介する。従来のV2V手法が限られたフレームをバッチ処理するのに対し、我々は無制限のフレームをサポートするため、ストリーミング方式でフレームを処理することを選択した。StreamV2Vの中核には、現在を過去に関連付ける後方参照の原理がある。これは、過去のフレームからの情報をアーカイブする特徴量バンクを維持することで実現される。入力フレームに対して、StreamV2Vはセルフアテンションを拡張し、バンクされたキーと値を含め、類似した過去の特徴量を直接出力に融合する。特徴量バンクは、保存された特徴量と新しい特徴量を統合することで継続的に更新され、コンパクトでありながら情報量を保つ。StreamV2Vは、画像拡散モデルと微調整なしでシームレスに統合できる適応性と効率性が際立っており、1つのA100 GPUで20 FPSを達成する。これは、FlowVid、CoDeF、Rerender、TokenFlowと比較して、それぞれ15倍、46倍、108倍、158倍高速である。定量的な指標とユーザー調査により、StreamV2Vが時間的一貫性を維持する卓越した能力を確認した。
English
This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.

Summary

AI-Generated Summary

PDF162December 12, 2024