CurveStream : Amélioration de la compréhension vidéo en flux continu dans les MLLM via une gestion hiérarchique de la mémoire visuelle sensible à la courbure
CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management
March 20, 2026
Auteurs: Chao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen
cs.AI
Résumé
Les modèles de langage de grande taille multimodaux ont connu un succès significatif dans la compréhension vidéo hors ligne, mais leur application aux vidéos en flux continu est sévèrement limitée par l'explosion linéaire des tokens visuels, qui entraîne souvent des erreurs de dépassement de mémoire (OOM) ou un oubli catastrophique. Les méthodes existentes de rétention visuelle et de gestion de mémoire reposent généralement sur un échantillonnage uniforme, des métriques physiques de bas niveau ou une éviction passive du cache. Cependant, ces stratégies manquent souvent de conscience sémantique intrinsèque, risquant de perturber la cohérence contextuelle et d'estomper les transitions sémantiques critiques bien que transitoires. Pour résoudre ces limitations, nous proposons CurveStream, un cadre de gestion hiérarchique de mémoire visuelle sans apprentissage, conscient de la courbure. Notre approche est motivée par l'observation clé que les régions à forte courbure le long des trajectoires de caractéristiques continues correspondent étroitement aux transitions sémantiques globales critiques. Sur la base de cette intuition géométrique, CurveStream évalue l'intensité sémantique en temps réel via un Score de Courbure et intègre un seuil dynamique K-Sigma en ligne pour router de manière adaptative les images vers des états de mémoire claire et floue sous un budget strict de tokens. Les évaluations sur diverses échelles temporelles confirment que ce cadre léger, CurveStream, produit systématiquement des gains de performance absolus supérieurs à 10 % (par exemple, 10,69 % sur StreamingBench et 13,58 % sur OVOBench) par rapport aux lignes de base respectives, établissant de nouveaux résultats state-of-the-art pour la perception vidéo en flux continu. Le code sera publié à l'adresse https://github.com/streamingvideos/CurveStream.
English
Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.