스트리밍 비디오 이해를 위한 간단한 베이스라인
A Simple Baseline for Streaming Video Understanding
April 2, 2026
저자: Yujiao Shen, Shulin Tian, Jingkang Yang, Ziwei Liu
cs.AI
초록
최근 스트리밍 비디오 이해 방법론은 긴 비디오 스트림을 처리하기 위해 복잡한 메모리 메커니즘에 점점 더 의존하고 있습니다. 우리는 이러한 트렌드에 대해 단순한 발견으로 도전합니다: 최근 N개의 프레임만 기성 비전 언어 모델(VLM)에 입력하는 슬라이딩-윈도우 기반 방법이 이미 공개된 스트리밍 모델들을 능가하거나 그에 버금가는 성능을 보입니다. 우리는 이 기반 방법을 SimpleStream으로 공식화하고 OVO-Bench와 StreamingBench에서 13개의 주요 오프라인 및 온라인 비디오 LLM 기반 방법들과 비교 평가합니다. 단순함에도 불구하고 SimpleStream은 일관되게 강력한 성능을 제공합니다. 최근 4개의 프레임만으로 OVO-Bench에서 67.7%, StreamingBench에서 80.59%의 평균 정확도를 달성합니다. 통제된 애블레이션 연구는 더 긴 컨텍스트의 가치가 모델 규모에 따라 균일하게 증가하기보다는 백본 모델에 의존적임을 추가로 보여주며, 일관된 인지-메모리 트레이드오프를 드러냅니다: 더 많은 과거 컨텍스트를 추가하면 기억 회상은 개선될 수 있지만, 실시간 인지 능력은 종종 약화됩니다. 이는 더 강력한 메모리, 검색 또는 압축 모듈이 동일한 프로토콜 하에서 SimpleStream을 명확하게 능가하지 않는다면 진전의 증거로 간주되어서는 안 됨을 시사합니다. 따라서 우리는 향후 스트리밍 벤치마크가 최근 장면 인지와 장기 기억을 분리하여 추가된 복잡성으로 인한 성능 향상을 더 명확하게 평가할 수 있어야 한다고 주장합니다.
English
Recent streaming video understanding methods increasingly rely on complex memory mechanisms to handle long video streams. We challenge this trend with a simple finding: a sliding-window baseline that feeds only the most recent N frames to an off-the-shelf VLM already matches or surpasses published streaming models. We formalize this baseline as SimpleStream and evaluate it against 13 major offline and online video LLM baselines on OVO-Bench and StreamingBench. Despite its simplicity, SimpleStream delivers consistently strong performance. With only 4 recent frames, it reaches 67.7% average accuracy on OVO-Bench and 80.59% on StreamingBench. Controlled ablations further show that the value of longer context is backbone-dependent rather than uniformly increasing with model scale, and reveal a consistent perception-memory trade-off: adding more historical context can improve recall, but often weakens real-time perception. This suggests that stronger memory, retrieval, or compression modules should not be taken as evidence of progress unless they clearly outperform SimpleStream under the same protocol. We therefore argue that future streaming benchmarks should separate recent-scene perception from long-range memory, so that performance improvements from added complexity can be evaluated more clearly.