ChatPaper.aiChatPaper

TimeChat-Online: 스트리밍 비디오에서 80%의 시각적 토큰은 자연스럽게 중복된다

TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos

April 24, 2025
저자: Linli Yao, Yicheng Li, Yuancheng Wei, Lei Li, Shuhuai Ren, Yuanxin Liu, Kun Ouyang, Lean Wang, Shicheng Li, Sida Li, Lingpeng Kong, Qi Liu, Yuanxing Zhang, Xu Sun
cs.AI

초록

온라인 비디오 플랫폼, 특히 실시간 스트리밍 서비스의 급속한 성장은 실시간 비디오 이해 시스템에 대한 시급한 필요성을 만들어냈습니다. 이러한 시스템은 지속적인 비디오 스트림을 처리하고 사용자 쿼리에 즉각적으로 응답해야 하며, 이는 현재의 비디오 대형 언어 모델(VideoLLMs)에게 독특한 도전 과제를 제시합니다. 기존의 VideoLLMs는 완전한 비디오를 처리하는 데 뛰어나지만, 밀집되고 중복된 프레임을 효율적으로 처리하지 못해 스트리밍 시나리오에서 상당한 한계를 보입니다. 우리는 실시간 비디오 상호작용을 혁신하는 새로운 온라인 VideoLLM인 TimeChat-Online을 소개합니다. 이 모델의 핵심에는 스트리밍 비디오에서의 시각적 중복성이라는 근본적인 문제를 해결하는 혁신적인 차등 토큰 드롭(Differential Token Drop, DTD) 모듈이 있습니다. DTD는 인간의 시각적 인지에서의 변화 맹목(Change Blindness) 현상에서 영감을 받아, 프레임 간의 정적이고 중복된 내용을 필터링하면서 의미 있는 시간적 변화를 보존합니다. 놀랍게도, 우리의 실험은 DTD가 비디오 토큰을 82.8% 줄이면서도 StreamingBench에서 98%의 성능을 유지함을 보여주며, 이는 스트리밍 비디오에서 80% 이상의 시각적 내용이 언어적 지도 없이도 자연스럽게 중복됨을 나타냅니다. 원활한 실시간 상호작용을 가능하게 하기 위해, 우리는 역추적, 현재 인식, 미래 응답 시나리오를 포함한 다양한 상호작용 패턴을 특징으로 하는 TimeChat-Online-139K라는 포괄적인 스트리밍 비디오 데이터셋을 제시합니다. TimeChat-Online의 독특한 능동적 응답(Proactive Response) 기능은 DTD를 통해 비디오 장면 전환을 지속적으로 모니터링함으로써 자연스럽게 달성되며, 이는 기존의 접근 방식과 차별화됩니다. 우리의 광범위한 평가는 TimeChat-Online이 스트리밍 벤치마크(StreamingBench 및 OvOBench)에서 우수한 성능을 보이며, Video-MME 및 MLVU와 같은 장편 비디오 작업에서도 경쟁력 있는 결과를 유지함을 입증합니다.
English
The rapid growth of online video platforms, particularly live streaming services, has created an urgent need for real-time video understanding systems. These systems must process continuous video streams and respond to user queries instantaneously, presenting unique challenges for current Video Large Language Models (VideoLLMs). While existing VideoLLMs excel at processing complete videos, they face significant limitations in streaming scenarios due to their inability to handle dense, redundant frames efficiently. We introduce TimeChat-Online, a novel online VideoLLM that revolutionizes real-time video interaction. At its core lies our innovative Differential Token Drop (DTD) module, which addresses the fundamental challenge of visual redundancy in streaming videos. Drawing inspiration from human visual perception's Change Blindness phenomenon, DTD preserves meaningful temporal changes while filtering out static, redundant content between frames. Remarkably, our experiments demonstrate that DTD achieves an 82.8% reduction in video tokens while maintaining 98% performance on StreamingBench, revealing that over 80% of visual content in streaming videos is naturally redundant without requiring language guidance. To enable seamless real-time interaction, we present TimeChat-Online-139K, a comprehensive streaming video dataset featuring diverse interaction patterns including backward-tracing, current-perception, and future-responding scenarios. TimeChat-Online's unique Proactive Response capability, naturally achieved through continuous monitoring of video scene transitions via DTD, sets it apart from conventional approaches. Our extensive evaluation demonstrates TimeChat-Online's superior performance on streaming benchmarks (StreamingBench and OvOBench) and maintaining competitive results on long-form video tasks such as Video-MME and MLVU.

Summary

AI-Generated Summary

PDF102April 25, 2025