CurveStream: Verbetering van Streamend Videobegrip in MLLM's via Krommingbewust Hiërarchisch Visueel Geheugenbeheer

Samenvatting

Multimodale Large Language Models hebben aanzienlijk succes geboekt bij offline videobegrip, maar hun toepassing op streamingvideo's wordt ernstig beperkt door de lineaire explosie van visuele tokens, wat vaak leidt tot Out-of-Memory (OOM) fouten of catastrofale vergetelheid. Bestaande methoden voor visueel geheugenbeheer zijn typisch afhankelijk van uniforme sampling, fysieke metrieken op laag niveau, of passieve cache-vervanging. Deze strategieën missen echter vaak intrinsiek semantisch bewustzijn, wat de contextuele samenhang kan verstoren en vluchtige maar kritieke semantische overgangen kan vervagen. Om deze beperkingen aan te pakken, stellen wij CurveStream voor, een trainingsvrij, kromming-bewust hiërarchisch raamwerk voor visueel geheugenbeheer. Onze aanpak wordt gemotiveerd door de kernobservatie dat regio's met hoge kromming langs continue featuretrajectoren nauw aansluiten bij kritieke globale semantische overgangen. Gebaseerd op dit geometrische inzicht, evalueert CurveStream de semantische intensiteit in real-time via een Krommingsscore en integreert het een online K-Sigma dynamische drempelwaarde om frames adaptief te routeren naar heldere en vage geheugenstatussen binnen een strikt tokenbudget. Evaluaties over diverse temporele schalen bevestigen dat dit lichtgewicht raamwerk, CurveStream, consistente absolute prestatieverbeteringen van meer dan 10% oplevert (bijvoorbeeld 10.69% op StreamingBench en 13.58% op OVOBench) ten opzichte van respectievelijke basislijnen, waarmee nieuwe state-of-the-art resultaten voor streaming videobegrip worden gevestigd. De code zal worden vrijgegeven op https://github.com/streamingvideos/CurveStream.

English

Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.

CurveStream: Verbetering van Streamend Videobegrip in MLLM's via Krommingbewust Hiërarchisch Visueel Geheugenbeheer

CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Samenvatting

Support