CurveStream: Potenciando la Comprensión de Video en Streaming en MLLMs mediante Gestión Jerárquica de Memoria Visual Consciente de la Curvatura

Resumen

Los Modelos de Lenguaje Grandes Multimodales han logrado un éxito significativo en la comprensión de vídeos offline, pero su aplicación a vídeos en streaming se ve severamente limitada por la explosión lineal de tokens visuales, lo que a menudo provoca errores de falta de memoria (OOM) o olvido catastrófico. Los métodos existentes de retención visual y gestión de memoria suelen depender de muestreo uniforme, métricas físicas de bajo nivel o expulsión pasiva de caché. Sin embargo, estas estrategias a menudo carecen de conciencia semántica intrínseca, pudiendo interrumpir la coherencia contextual y difuminar transiciones semánticas críticas aunque transitorias. Para abordar estas limitaciones, proponemos CurveStream, un marco de gestión de memoria visual jerárquico, libre de entrenamiento y consciente de la curvatura. Nuestro enfoque está motivado por la observación clave de que las regiones de alta curvatura a lo largo de trayectorias de características continuas se alinean estrechamente con transiciones semánticas globales críticas. Basándonos en esta perspectiva geométrica, CurveStream evalúa la intensidad semántica en tiempo real mediante una Puntuación de Curvatura e integra un umbral dinámico K-Sigma online para enrutar adaptativamente los fotogramas a estados de memoria claros y difusos bajo un estricto presupuesto de tokens. Las evaluaciones en diversas escalas temporales confirman que este marco ligero, CurveStream, produce consistentemente ganancias de rendimiento absolutas superiores al 10% (por ejemplo, 10.69% en StreamingBench y 13.58% en OVOBench) sobre las respectivas líneas base, estableciendo nuevos resultados state-of-the-art para la percepción de vídeo en streaming. El código se publicará en https://github.com/streamingvideos/CurveStream.

English

Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.

CurveStream: Potenciando la Comprensión de Video en Streaming en MLLMs mediante Gestión Jerárquica de Memoria Visual Consciente de la Curvatura

CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Resumen

Support