ChatPaper.aiChatPaper

Flash-VStream: 장기 비디오 스트림을 위한 메모리 기반 실시간 이해

Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams

June 12, 2024
저자: Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin
cs.AI

초록

대규모 언어 모델과 크로스 모달 정렬 기술의 발전으로 인해, 기존의 다중 모달 비디오 이해 방법들은 오프라인 시나리오에서 뛰어난 성능을 달성해 왔습니다. 그러나 실제 세계에서 가장 일반적인 미디어 형태 중 하나인 온라인 비디오 스트림은 거의 주목받지 못했습니다. 오프라인 비디오와 비교했을 때, 온라인 비디오 스트림의 '동적' 특성은 기존 모델의 직접적인 적용에 어려움을 주며, 극도로 장기간의 정보 저장, 연속적인 시각적 콘텐츠와 '비동기적' 사용자 질문 간의 상호작용과 같은 새로운 문제를 야기합니다. 따라서 본 논문에서는 인간의 기억 메커니즘을 모방한 비디오-언어 모델인 Flash-VStream을 제안합니다. 우리의 모델은 실시간으로 극도로 긴 비디오 스트림을 처리하면서 동시에 사용자 질문에 응답할 수 있습니다. 기존 모델과 비교했을 때, Flash-VStream은 온라인 스트리밍 비디오 이해 수행과 밀접하게 관련된 추론 지연 시간과 VRAM 소비를 크게 줄였습니다. 또한, 기존의 비디오 이해 벤치마크가 주로 오프라인 시나리오에 집중되어 있다는 점을 고려하여, 온라인 비디오 스트리밍 이해를 위해 특별히 설계된 새로운 질문 응답 벤치마크인 VStream-QA를 제안합니다. 제안된 벤치마크에서 인기 있는 기존 방법들과의 비교를 통해, 우리의 방법이 이러한 도전적인 설정에서 우수함을 입증했습니다. 우리의 접근 방식의 일반화 가능성을 검증하기 위해, 기존의 비디오 이해 벤치마크에서도 평가를 수행했으며, 오프라인 시나리오에서도 최첨단 성능을 달성했습니다. 모든 코드, 모델, 데이터셋은 https://invinciblewyq.github.io/vstream-page/에서 확인할 수 있습니다.
English
Benefiting from the advancements in large language models and cross-modal alignment, existing multi-modal video understanding methods have achieved prominent performance in offline scenario. However, online video streams, as one of the most common media forms in the real world, have seldom received attention. Compared to offline videos, the 'dynamic' nature of online video streams poses challenges for the direct application of existing models and introduces new problems, such as the storage of extremely long-term information, interaction between continuous visual content and 'asynchronous' user questions. Therefore, in this paper we present Flash-VStream, a video-language model that simulates the memory mechanism of human. Our model is able to process extremely long video streams in real-time and respond to user queries simultaneously. Compared to existing models, Flash-VStream achieves significant reductions in inference latency and VRAM consumption, which is intimately related to performing understanding of online streaming video. In addition, given that existing video understanding benchmarks predominantly concentrate on offline scenario, we propose VStream-QA, a novel question answering benchmark specifically designed for online video streaming understanding. Comparisons with popular existing methods on the proposed benchmark demonstrate the superiority of our method for such challenging setting. To verify the generalizability of our approach, we further evaluate it on existing video understanding benchmarks and achieves state-of-the-art performance in offline scenarios as well. All code, models, and datasets are available at the https://invinciblewyq.github.io/vstream-page/

Summary

AI-Generated Summary

PDF171November 28, 2024