CurveStream: Повышение эффективности понимания потокового видео в MLLM за счет иерархического управления визуальной памятью с учетом кривизны
CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management
March 20, 2026
Авторы: Chao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen
cs.AI
Аннотация
Мультимодальные большие языковые модели достигли значительных успехов в области анализа записанных видео, однако их применение к потоковому видео серьезно ограничено линейным ростом количества визуальных токенов, что часто приводит к ошибкам переполнения памяти (Out-of-Memory, OOM) или катастрофическому забыванию. Существующие методы удержания визуальной информации и управления памятью обычно основаны на равномерной выборке, низкоуровневых физических метриках или пассивном вытеснении кэша. Однако эти стратегии часто лишены внутренней семантической осведомленности, что может нарушать контекстную связность и размывать быстрые, но критически важные семантические переходы. Для преодоления этих ограничений мы предлагаем CurveStream — беспараметрическую иерархическую систему управления визуальной памятью, учитывающую кривизну. Наш подход мотивирован ключевым наблюдением: области с высокой кривизной вдоль непрерывных траекторий признаков тесно связаны с критическими глобальными семантическими переходами. Основываясь на этом геометрическом принципе, CurveStream оценивает семантическую интенсивность в реальном времени с помощью показателя кривизны (Curvature Score) и интегрирует онлайн-динамический порог K-Sigma для адаптивной маршрутизации кадров в состояния четкой и размытой памяти в условиях строгого лимита токенов. Оценки на различных временных масштабах подтверждают, что этот легковесный фреймворк, CurveStream, стабильно обеспечивает абсолютный прирост производительности более чем на 10% (например, 10.69% на StreamingBench и 13.58% на OVOBench) по сравнению с соответствующими базовыми методами, устанавливая новые наилучшие результаты для восприятия потокового видео. Код будет доступен по адресу https://github.com/streamingvideos/CurveStream.
English
Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.