ChatPaper.aiChatPaper

Olhando para Trás: Tradução de Vídeo para Vídeo em Fluxo Contínuo com Bancos de Características

Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24, 2024
Autores: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu
cs.AI

Resumo

Este artigo apresenta o StreamV2V, um modelo de difusão que realiza tradução de vídeo para vídeo (V2V) em tempo real com prompts do usuário. Diferente de métodos anteriores de V2V que utilizam lotes para processar um número limitado de quadros, optamos por processar os quadros de forma contínua, permitindo a manipulação de um número ilimitado de quadros. No cerne do StreamV2V está um princípio retrospectivo que relaciona o presente ao passado. Isso é realizado através da manutenção de um banco de características, que arquiva informações de quadros anteriores. Para quadros recebidos, o StreamV2V estende a auto-atenção para incluir chaves e valores armazenados e funde diretamente características passadas semelhantes na saída. O banco de características é continuamente atualizado pela fusão de características armazenadas e novas, tornando-o compacto, porém informativo. O StreamV2V destaca-se por sua adaptabilidade e eficiência, integrando-se perfeitamente com modelos de difusão de imagens sem necessidade de ajuste fino. Ele pode executar 20 FPS em uma GPU A100, sendo 15x, 46x, 108x e 158x mais rápido que FlowVid, CoDeF, Rerender e TokenFlow, respectivamente. Métricas quantitativas e estudos com usuários confirmam a capacidade excepcional do StreamV2V em manter a consistência temporal.
English
This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.
PDF152December 12, 2024