Eine einfache Basis für das Verständnis von Streaming-Video

Zusammenfassung

Aktuelle Methoden zur Verarbeitung von Streaming-Videos setzen zunehmend auf komplexe Speichermechanismen, um lange Videoströme zu bewältigen. Wir stellen diesen Trend mit einer einfachen Erkenntnis infrage: Ein Sliding-Window-Baseline-Ansatz, der nur die letzten N Frames an ein Standard-VLM (Vision-Language Model) übergibt, erreicht bereits vergleichbare oder bessere Ergebnisse als publizierte Streaming-Modelle. Wir formalisieren diesen Baseline-Ansatz als SimpleStream und evaluieren ihn gegen 13 wichtige Offline- und Online-Video-LLM-Baselines auf OVO-Bench und StreamingBench. Trotz seiner Einfachheit liefert SimpleStream durchweg starke Leistungen. Mit nur 4 aktuellen Frames erreicht es eine durchschnittliche Genauigkeit von 67,7 % auf OVO-Bench und 80,59 % auf StreamingBench. Kontrollierte Ablationstudien zeigen weiterhin, dass der Wert eines längeren Kontexts backbone-abhängig ist und nicht gleichmäßig mit der Modellgröße zunimmt. Sie offenbaren zudem einen beständigen Trade-off zwischen Wahrnehmung und Gedächtnis: Mehr historischer Kontext kann das Erinnerungsvermögen verbessern, schwächt aber oft die Echtzeit-Wahrnehmung. Dies legt nahe, dass stärkere Speicher-, Retrieval- oder Kompressionsmodule nicht als Fortschritt gewertet werden sollten, es sei denn, sie übertreffen SimpleStream unter demselben Protokoll eindeutig. Daher plädieren wir dafür, dass zukünftige Streaming-Benchmarks die Wahrnehmung aktueller Szenen vom Langzeitgedächtnis trennen sollten, damit Leistungsverbesserungen durch zusätzliche Komplexität klarer evaluiert werden können.

English

Recent streaming video understanding methods increasingly rely on complex memory mechanisms to handle long video streams. We challenge this trend with a simple finding: a sliding-window baseline that feeds only the most recent N frames to an off-the-shelf VLM already matches or surpasses published streaming models. We formalize this baseline as SimpleStream and evaluate it against 13 major offline and online video LLM baselines on OVO-Bench and StreamingBench. Despite its simplicity, SimpleStream delivers consistently strong performance. With only 4 recent frames, it reaches 67.7% average accuracy on OVO-Bench and 80.59% on StreamingBench. Controlled ablations further show that the value of longer context is backbone-dependent rather than uniformly increasing with model scale, and reveal a consistent perception-memory trade-off: adding more historical context can improve recall, but often weakens real-time perception. This suggests that stronger memory, retrieval, or compression modules should not be taken as evidence of progress unless they clearly outperform SimpleStream under the same protocol. We therefore argue that future streaming benchmarks should separate recent-scene perception from long-range memory, so that performance improvements from added complexity can be evaluated more clearly.

Eine einfache Basis für das Verständnis von Streaming-Video

A Simple Baseline for Streaming Video Understanding

Zusammenfassung

Support