ChatPaper.aiChatPaper

과거를 돌아보며: 피처 뱅크를 활용한 스트리밍 비디오-투-비디오 변환

Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24, 2024
저자: Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu
cs.AI

초록

본 논문은 사용자 프롬프트를 통해 실시간 스트리밍 비디오-투-비디오(V2V) 변환을 가능하게 하는 확산 모델인 StreamV2V를 소개합니다. 기존의 V2V 방법들이 제한된 프레임을 처리하기 위해 배치 방식을 사용한 것과 달리, 우리는 무제한 프레임을 지원하기 위해 스트리밍 방식으로 프레임을 처리합니다. StreamV2V의 핵심에는 현재를 과거와 연결하는 후방 참조 원칙이 자리 잡고 있습니다. 이는 과거 프레임의 정보를 보관하는 특징 벙커(feature bank)를 유지함으로써 구현됩니다. 들어오는 프레임에 대해 StreamV2V는 자기 주의(self-attention)를 확장하여 벙커에 저장된 키와 값을 포함시키고, 유사한 과거 특징을 출력에 직접 융합합니다. 특징 벙커는 저장된 특징과 새로운 특징을 병합함으로써 지속적으로 업데이트되며, 이를 통해 간결하면서도 정보가 풍부한 상태를 유지합니다. StreamV2V는 적응성과 효율성에서 두각을 나타내며, 미세 조정 없이도 이미지 확산 모델과 원활하게 통합됩니다. 이 모델은 단일 A100 GPU에서 20 FPS로 실행 가능하며, 각각 FlowVid, CoDeF, Rerender, TokenFlow보다 15배, 46배, 108배, 158배 빠른 성능을 보입니다. 정량적 지표와 사용자 연구를 통해 StreamV2V가 시간적 일관성을 유지하는 데 있어 탁월한 능력을 가지고 있음이 확인되었습니다.
English
This paper introduces StreamV2V, a diffusion model that achieves real-time streaming video-to-video (V2V) translation with user prompts. Unlike prior V2V methods using batches to process limited frames, we opt to process frames in a streaming fashion, to support unlimited frames. At the heart of StreamV2V lies a backward-looking principle that relates the present to the past. This is realized by maintaining a feature bank, which archives information from past frames. For incoming frames, StreamV2V extends self-attention to include banked keys and values and directly fuses similar past features into the output. The feature bank is continually updated by merging stored and new features, making it compact but informative. StreamV2V stands out for its adaptability and efficiency, seamlessly integrating with image diffusion models without fine-tuning. It can run 20 FPS on one A100 GPU, being 15x, 46x, 108x, and 158x faster than FlowVid, CoDeF, Rerender, and TokenFlow, respectively. Quantitative metrics and user studies confirm StreamV2V's exceptional ability to maintain temporal consistency.

Summary

AI-Generated Summary

PDF162December 12, 2024