Uma Linha de Base Simples para Compreensão de Vídeo em Fluxo Contínuo
A Simple Baseline for Streaming Video Understanding
April 2, 2026
Autores: Yujiao Shen, Shulin Tian, Jingkang Yang, Ziwei Liu
cs.AI
Resumo
Os métodos recentes de compreensão de vídeos em streaming dependem cada vez mais de mecanismos de memória complexos para lidar com fluxos de vídeo longos. Nós contestamos essa tendência com uma descoberta simples: uma linha de base baseada em janela deslizante que fornece apenas os N quadros mais recentes a um VLM (Modelo de Linguagem de Visão) padrão já iguala ou supera os modelos de streaming publicados. Formalizamos essa linha de base como SimpleStream e a avaliamos contra 13 grandes linhas de base de LLMs de vídeo offline e online no OVO-Bench e no StreamingBench. Apesar de sua simplicidade, o SimpleStream oferece um desempenho consistentemente forte. Com apenas 4 quadros recentes, ele atinge 67,7% de precisão média no OVO-Bench e 80,59% no StreamingBench. Ablações controladas mostram ainda que o valor de um contexto mais longo depende da arquitetura base (backbone) em vez de aumentar uniformemente com a escala do modelo, e revelam uma compensação (trade-off) consistente entre percepção e memória: adicionar mais contexto histórico pode melhorar a recordação, mas muitas vezes enfraquece a percepção em tempo real. Isso sugere que módulos de memória, recuperação ou compressão mais fortes não devem ser tomados como evidência de progresso, a menos que superem claramente o SimpleStream sob o mesmo protocolo. Portanto, argumentamos que os futuros benchmarks de streaming devem separar a percepção de cena recente da memória de longo alcance, para que as melhorias de desempenho provenientes da complexidade adicionada possam ser avaliadas com mais clareza.
English
Recent streaming video understanding methods increasingly rely on complex memory mechanisms to handle long video streams. We challenge this trend with a simple finding: a sliding-window baseline that feeds only the most recent N frames to an off-the-shelf VLM already matches or surpasses published streaming models. We formalize this baseline as SimpleStream and evaluate it against 13 major offline and online video LLM baselines on OVO-Bench and StreamingBench. Despite its simplicity, SimpleStream delivers consistently strong performance. With only 4 recent frames, it reaches 67.7% average accuracy on OVO-Bench and 80.59% on StreamingBench. Controlled ablations further show that the value of longer context is backbone-dependent rather than uniformly increasing with model scale, and reveal a consistent perception-memory trade-off: adding more historical context can improve recall, but often weakens real-time perception. This suggests that stronger memory, retrieval, or compression modules should not be taken as evidence of progress unless they clearly outperform SimpleStream under the same protocol. We therefore argue that future streaming benchmarks should separate recent-scene perception from long-range memory, so that performance improvements from added complexity can be evaluated more clearly.