Una Linea di Base Semplice per la Comprensione di Video in Streaming

Abstract

I metodi recenti per la comprensione di video in streaming si basano sempre più su complessi meccanismi di memoria per gestire flussi video lunghi. Noi contestiamo questa tendenza con un semplice risultato: una baseline a finestra mobile che fornisce a un VLM standard solo gli N frame più recenti eguaglia già o supera i modelli di streaming pubblicati. Formalizziamo questa baseline come SimpleStream e la valutiamo rispetto a 13 principali baseline di modelli linguistici visivi (VLM) offline e online su OVO-Bench e StreamingBench. Nonostante la sua semplicità, SimpleStream fornisce prestazioni costantemente solide. Con soli 4 frame recenti, raggiunge una precisione media del 67,7% su OVO-Bench e dell'80,59% su StreamingBench. Ablazioni controllate mostrano inoltre che il valore di un contesto più lungo dipende dall'architettura di base piuttosto che aumentare uniformemente con la scala del modello, e rivelano un costante compromesso percezione-memoria: aggiungere più contesto storico può migliorare il richiamo, ma spesso indebolisce la percezione in tempo reale. Ciò suggerisce che moduli di memoria, recupero o compressione più potenti non dovrebbero essere considerati prove di progresso a meno che non superino chiaramente SimpleStream con lo stesso protocollo. Sosteniamo quindi che i futuri benchmark di streaming dovrebbero separare la percezione della scena recente dalla memoria a lungo raggio, in modo che i miglioramenti prestazionali derivanti da complessità aggiuntive possano essere valutati più chiaramente.

English

Recent streaming video understanding methods increasingly rely on complex memory mechanisms to handle long video streams. We challenge this trend with a simple finding: a sliding-window baseline that feeds only the most recent N frames to an off-the-shelf VLM already matches or surpasses published streaming models. We formalize this baseline as SimpleStream and evaluate it against 13 major offline and online video LLM baselines on OVO-Bench and StreamingBench. Despite its simplicity, SimpleStream delivers consistently strong performance. With only 4 recent frames, it reaches 67.7% average accuracy on OVO-Bench and 80.59% on StreamingBench. Controlled ablations further show that the value of longer context is backbone-dependent rather than uniformly increasing with model scale, and reveal a consistent perception-memory trade-off: adding more historical context can improve recall, but often weakens real-time perception. This suggests that stronger memory, retrieval, or compression modules should not be taken as evidence of progress unless they clearly outperform SimpleStream under the same protocol. We therefore argue that future streaming benchmarks should separate recent-scene perception from long-range memory, so that performance improvements from added complexity can be evaluated more clearly.

Una Linea di Base Semplice per la Comprensione di Video in Streaming

A Simple Baseline for Streaming Video Understanding

Abstract

Support