Простой базовый метод для потокового понимания видео

Аннотация

Современные методы анализа потокового видео все чаще полагаются на сложные механизмы памяти для обработки длинных видеопотоков. Мы оспариваем эту тенденцию простым открытием: базовый метод скользящего окна, который подает только последние N кадров в готовую VLM, уже соответствует или превосходит опубликованные потоковые модели. Мы формализуем этот базовый подход как SimpleStream и оцениваем его против 13 основных оффлайновых и онлайн-базовых моделей видео-LLM на OVO-Bench и StreamingBench. Несмотря на свою простоту, SimpleStream демонстрирует стабильно высокую производительность. Всего с 4 последними кадрами он достигает средней точности 67,7% на OVO-Bench и 80,59% на StreamingBench. Контролируемые абляционные исследования дополнительно показывают, что ценность более длинного контекста зависит от базовой архитектуры, а не равномерно возрастает с масштабом модели, и выявляют постоянный компромисс между восприятием и памятью: добавление большего исторического контекста может улучшить recall, но часто ослабляет восприятие в реальном времени. Это свидетельствует, что более сильные модули памяти, извлечения или сжатия не должны считаться доказательством прогресса, если они не превосходят четко SimpleStream в рамках того же протокола. Поэтому мы утверждаем, что будущие потоковые бенчмарки должны разделять восприятие текущей сцены и долгосрочную память, чтобы улучшения производительности от добавленной сложности можно было оценивать более четко.

English

Recent streaming video understanding methods increasingly rely on complex memory mechanisms to handle long video streams. We challenge this trend with a simple finding: a sliding-window baseline that feeds only the most recent N frames to an off-the-shelf VLM already matches or surpasses published streaming models. We formalize this baseline as SimpleStream and evaluate it against 13 major offline and online video LLM baselines on OVO-Bench and StreamingBench. Despite its simplicity, SimpleStream delivers consistently strong performance. With only 4 recent frames, it reaches 67.7% average accuracy on OVO-Bench and 80.59% on StreamingBench. Controlled ablations further show that the value of longer context is backbone-dependent rather than uniformly increasing with model scale, and reveal a consistent perception-memory trade-off: adding more historical context can improve recall, but often weakens real-time perception. This suggests that stronger memory, retrieval, or compression modules should not be taken as evidence of progress unless they clearly outperform SimpleStream under the same protocol. We therefore argue that future streaming benchmarks should separate recent-scene perception from long-range memory, so that performance improvements from added complexity can be evaluated more clearly.

Простой базовый метод для потокового понимания видео

A Simple Baseline for Streaming Video Understanding

Аннотация

Support