CurveStream: Verbesserung des Verständnisses von Streaming-Videos in MLLMs durch krümmungsbewusstes hierarchisches Management des visuellen Gedächtnisses

Zusammenfassung

Multimodale Large Language Models haben bedeutende Erfolge im Bereich des Offline-Videoverständnisses erzielt, doch ihre Anwendung auf Streaming-Videos wird stark durch die lineare Explosion visueller Tokens eingeschränkt, was häufig zu Out-of-Memory (OOM)-Fehlern oder katastrophalem Vergessen führt. Bestehende Methoden zur visuellen Speicherung und Speicherverwaltung basieren typischerweise auf gleichmäßiger Abtastung, niedrigschwelligen physikalischen Metriken oder passiver Cache-Verdrängung. Diese Strategien weisen jedoch oft ein mangelndes intrinsisches Semantikbewusstsein auf, was die kontextuelle Kohärenz stören und flüchtige, jedoch kritische semantische Übergänge verwischen kann. Um diese Einschränkungen zu adressieren, schlagen wir CurveStream vor, einen trainierungsfreien, krümmungssensitiven hierarchischen Framework zur visuellen Speicherverwaltung. Unser Ansatz wird durch die Schlüsselbeobachtung motiviert, dass Regionen mit hoher Krümmung entlang kontinuierlicher Merkmaltrajektorien eng mit kritischen globalen semantischen Übergängen korrelieren. Basierend auf dieser geometrischen Erkenntnis bewertet CurveStream die Echtzeit-Semantikintensität mittels eines Krümmungs-Scores und integriert einen online K-Sigma dynamischen Schwellenwert, um Frames adaptiv unter striktem Token-Budget in klare und unscharfe Speicherzustände zu routen. Evaluationen über diverse Zeitskalen hinweg bestätigen, dass dieser leichtgewichtige Framework, CurveStream, konsistent absolute Leistungssteigerungen von über 10 % (z.B. 10,69 % auf StreamingBench und 13,58 % auf OVOBench) gegenüber jeweiligen Baselines erzielt und damit neue State-of-the-Art Ergebnisse für die Streaming-Videowahrnehmung etabliert. Der Code wird unter https://github.com/streamingvideos/CurveStream veröffentlicht.

English

Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.

CurveStream: Verbesserung des Verständnisses von Streaming-Videos in MLLMs durch krümmungsbewusstes hierarchisches Management des visuellen Gedächtnisses

CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Zusammenfassung

Support