ChatPaper.aiChatPaper

Взгляд в прошлое: Перевод потокового видео в видео с использованием банков признаков

Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24, 2024
Авторы: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu
cs.AI

Аннотация

Этот документ представляет StreamV2V, модель диффузии, которая достигает перевода видео-в-видео (V2V) в реальном времени с помощью потоковой передачи с пользовательскими подсказками. В отличие от предыдущих методов V2V, использующих пакеты для обработки ограниченного количества кадров, мы предпочли обрабатывать кадры потоковым способом, чтобы поддерживать неограниченное количество кадров. В основе StreamV2V лежит принцип обратного взгляда, который связывает настоящее с прошлым. Это достигается путем поддержания банка признаков, который архивирует информацию из прошлых кадров. Для входящих кадров StreamV2V расширяет самовнимание, чтобы включить ключи и значения из банка, и непосредственно объединяет аналогичные прошлые признаки в выходной сигнал. Банк признаков постоянно обновляется путем слияния сохраненных и новых признаков, что делает его компактным, но информативным. StreamV2V выделяется своей адаптивностью и эффективностью, плавно интегрируясь с моделями диффузии изображений без дополнительной настройки. Он может работать со скоростью 20 кадров в секунду на одном GPU A100, что в 15, 46, 108 и 158 раз быстрее, чем FlowVid, CoDeF, Rerender и TokenFlow соответственно. Количественные метрики и пользовательские исследования подтверждают исключительную способность StreamV2V поддерживать временную согласованность.
English
This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.
PDF162December 12, 2024