Une ligne de base simple pour la compréhension du streaming vidéo

Résumé

Les méthodes récentes de compréhension de vidéos en flux continu reposent de plus en plus sur des mécanismes de mémoire complexes pour traiter les flux vidéo longs. Nous remettons en cause cette tendance par un constat simple : une approche baseline à fenêtre glissante qui ne fournit que les N images les plus récentes à un VLM standard atteint déjà, voire dépasse, les performances des modèles de streaming publiés. Nous formalisons cette baseline sous le nom de SimpleStream et l'évaluons contre 13 modèles de référence majeurs (hors ligne et en ligne) de LLM vidéo sur OVO-Bench et StreamingBench. Malgré sa simplicité, SimpleStream démontre des performances constamment solides. Avec seulement 4 images récentes, il atteint une précision moyenne de 67,7 % sur OVO-Bench et 80,59 % sur StreamingBench. Des ablations contrôlées montrent en outre que la valeur d'un contexte plus long dépend du modèle de base plutôt que d'augmenter uniformément avec l'échelle du modèle, et révèlent un compromis constant perception-mémoire : l'ajout de contexte historique améliore le rappel, mais affaiblit souvent la perception en temps réel. Cela suggère que des modules de mémoire, de récupération ou de compression plus performants ne doivent pas être considérés comme des preuves de progrès, sauf s'ils surpassent clairement SimpleStream dans les mêmes conditions. Nous soutenons donc que les futures évaluations de streaming devraient dissocier la perception de scène récente de la mémoire à long terme, afin que les améliorations de performance issues d'une complexité accrue puissent être évaluées plus clairement.

English

Recent streaming video understanding methods increasingly rely on complex memory mechanisms to handle long video streams. We challenge this trend with a simple finding: a sliding-window baseline that feeds only the most recent N frames to an off-the-shelf VLM already matches or surpasses published streaming models. We formalize this baseline as SimpleStream and evaluate it against 13 major offline and online video LLM baselines on OVO-Bench and StreamingBench. Despite its simplicity, SimpleStream delivers consistently strong performance. With only 4 recent frames, it reaches 67.7% average accuracy on OVO-Bench and 80.59% on StreamingBench. Controlled ablations further show that the value of longer context is backbone-dependent rather than uniformly increasing with model scale, and reveal a consistent perception-memory trade-off: adding more historical context can improve recall, but often weakens real-time perception. This suggests that stronger memory, retrieval, or compression modules should not be taken as evidence of progress unless they clearly outperform SimpleStream under the same protocol. We therefore argue that future streaming benchmarks should separate recent-scene perception from long-range memory, so that performance improvements from added complexity can be evaluated more clearly.

Une ligne de base simple pour la compréhension du streaming vidéo

A Simple Baseline for Streaming Video Understanding

Résumé

Support