CurveStream: Aprimoramento da Compreensão de Vídeo em Streaming em MLLMs por meio de Gerenciamento Hierárquico de Memória Visual com Consciência de Curvatura

Resumo

Os Modelos de Linguagem de Grande Porte Multimodais alcançaram sucesso significativo na compreensão de vídeos offline, mas sua aplicação a vídeos em streaming é severamente limitada pela explosão linear de *tokens* visuais, que frequentemente resulta em erros de Estouro de Memória (*Out-of-Memory - OOM*) ou em esquecimento catastrófico. Os métodos existentes de retenção visual e gestão de memória geralmente dependem de amostragem uniforme, métricas físicas de baixo nível ou expurgo passivo de *cache*. No entanto, essas estratégias frequentemente carecem de consciência semântica intrínseca, potencialmente perturbando a coerência contextual e borrando transições semânticas críticas, ainda que transitórias. Para superar essas limitações, propomos o CurveStream, um quadro de gestão de memória visual hierárquico, livre de treinamento e consciente da curvatura. Nossa abordagem é motivada pela observação fundamental de que regiões de alta curvatura ao longo de trajetórias contínuas de características estão intimamente alinhadas com transições semânticas globais críticas. Com base nessa intuição geométrica, o CurveStream avalia a intensidade semântica em tempo real por meio de um *Curvature Score* (Pontuação de Curvatura) e integra um limiar dinâmico *K-Sigma* online para direcionar adaptativamente os quadros para estados de memória claros e difusos, sob um orçamento rigoroso de *tokens*. Avaliações em diversas escalas temporais confirmam que este quadro leve, CurveStream, produz consistentemente ganhos de desempenho absolutos superiores a 10% (por exemplo, 10,69% no StreamingBench e 13,58% no OVOBench) sobre as respectivas linhas de base, estabelecendo novos resultados state-of-the-art para a percepção de vídeos em streaming. O código será disponibilizado em https://github.com/streamingvideos/CurveStream.

English

Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.