CurveStream: Miglioramento della Comprensione di Video in Streaming nei MLLM tramite Gestione Gerarchica della Memoria Visiva Consapevole della Curvatura

Abstract

I modelli linguistici multimodali di grandi dimensioni hanno ottenuto un successo significativo nella comprensione video offline, ma la loro applicazione a video in streaming è fortemente limitata dall'esplosione lineare di token visivi, che spesso porta a errori di memoria insufficiente (OOM) o a oblio catastrofico. I metodi esistenti di ritenzione visiva e gestione della memoria si basano tipicamente su campionamento uniforme, metriche fisiche di basso livello o espulsione passiva dalla cache. Tuttavia, queste strategie spesso mancano di una consapevolezza semantica intrinseca, rischiando di interrompere la coerenza contestuale e di offuscare transizioni semantiche transitorie ma critiche. Per affrontare queste limitazioni, proponiamo CurveStream, un framework di gestione della memoria visiva gerarchica, consapevole della curvatura e che non richiede addestramento. Il nostro approccio è motivato dall'osservazione chiave che le regioni ad alta curvatura lungo le traiettorie continue delle feature si allineano strettamente con transizioni semantiche globali critiche. Basandoci su questa intuizione geometrica, CurveStream valuta l'intensità semantica in tempo reale tramite un Punteggio di Curvatura e integra una soglia dinamica online K-Sigma per instradare in modo adattivo i fotogrammi verso stati di memoria chiari e fuzzy sotto un rigoroso budget di token. Le valutazioni su diverse scale temporali confermano che questo framework leggero, CurveStream, produce costantemente guadagni assoluti di prestazioni superiori al 10% (ad esempio, il 10,69% su StreamingBench e il 13,58% su OVOBench) rispetto alle rispettive baseline, stabilendo nuovi risultati all'avanguardia per la percezione di video in streaming. Il codice sarà rilasciato su https://github.com/streamingvideos/CurveStream.

English

Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.

CurveStream: Miglioramento della Comprensione di Video in Streaming nei MLLM tramite Gestione Gerarchica della Memoria Visiva Consapevole della Curvatura

CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Abstract

Support