Een Eenvoudige Uitgangsbasis voor Stromend Videobegrip

Samenvatting

Recente methoden voor het begrijpen van streamende video vertrouwen steeds meer op complexe geheugenmechanismen om lange videostreams te verwerken. Wij dagen deze trend uit met een eenvoudige bevinding: een sliding-window-basislijn die alleen de meest recente N frames aan een standaard VLM aanbiedt, presteert even goed of beter dan gepubliceerde streamingmodellen. Wij formaliseren deze basislijn als SimpleStream en evalueren deze tegenover 13 belangrijke offline en online video-LLM-basislijnen op OVO-Bench en StreamingBench. Ondanks zijn eenvoud levert SimpleStream consistent sterke prestaties. Met slechts 4 recente frames bereikt het een gemiddelde nauwkeurigheid van 67,7% op OVO-Bench en 80,59% op StreamingBench. Gecontroleerde ablatiestudies tonen verder aan dat de waarde van langere context afhankelijk is van de backbone, in plaats van uniform toe te nemen met modelschaal, en onthullen een consistente perceptie-geheugenafweging: het toevoegen van meer historische context kan de herinnering verbeteren, maar verzwakt vaak de real-time perceptie. Dit suggereert dat sterkere geheugen-, retrieval- of compressiemodules niet als vooruitgang moeten worden beschouwd, tenzij ze duidelijk beter presteren dan SimpleStream onder hetzelfde protocol. Wij bepleiten daarom dat toekomstige streamingbenchmarks recente-sceneperceptie moeten scheiden van langetermijngeheugen, zodat prestatieverbeteringen door toegevoegde complexiteit duidelijker kunnen worden geëvalueerd.

English

Recent streaming video understanding methods increasingly rely on complex memory mechanisms to handle long video streams. We challenge this trend with a simple finding: a sliding-window baseline that feeds only the most recent N frames to an off-the-shelf VLM already matches or surpasses published streaming models. We formalize this baseline as SimpleStream and evaluate it against 13 major offline and online video LLM baselines on OVO-Bench and StreamingBench. Despite its simplicity, SimpleStream delivers consistently strong performance. With only 4 recent frames, it reaches 67.7% average accuracy on OVO-Bench and 80.59% on StreamingBench. Controlled ablations further show that the value of longer context is backbone-dependent rather than uniformly increasing with model scale, and reveal a consistent perception-memory trade-off: adding more historical context can improve recall, but often weakens real-time perception. This suggests that stronger memory, retrieval, or compression modules should not be taken as evidence of progress unless they clearly outperform SimpleStream under the same protocol. We therefore argue that future streaming benchmarks should separate recent-scene perception from long-range memory, so that performance improvements from added complexity can be evaluated more clearly.

Een Eenvoudige Uitgangsbasis voor Stromend Videobegrip

A Simple Baseline for Streaming Video Understanding

Samenvatting

Support