ChatPaper.aiChatPaper

CurveStream: 곡률 인식 계층적 시각 메모리 관리를 통한 MLLM의 스트리밍 비디오 이해 성능 향상

CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

March 20, 2026
저자: Chao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen
cs.AI

초록

멀티모달 대규모 언어 모델은 오프라인 비디오 이해에서 상당한 성공을 거두었으나, 스트리밍 비디오에의 적용은 시각 토큰의 선형적 폭증으로 인해 메모리 부족(OOM) 오류나 치명적 망각을 초래하며 심각하게 제한되고 있습니다. 기존의 시각 정보 보존 및 메모리 관리 방법은 일반적으로 균일 샘플링, 저수준 물리적 메트릭 또는 수동적 캐시 제거에 의존합니다. 그러나 이러한 전략은 본질적인 의미 인식이 부족하여 맥락적 일관성을 해치고 일시적이지만 중요한 의미 전환을 흐릿하게 만들 가능성이 있습니다. 이러한 한계를 해결하기 위해 우리는 훈련이 필요 없는 곡률 인식 계층적 시각 메모리 관리 프레임워크인 CurveStream을 제안합니다. 우리의 접근법은 연속적인 특징 궤적을 따른 높은 곡률 영역이 중요한 전역 의미 전환과 밀접하게 일치한다는 핵심 관찰에 동기를 부여받았습니다. 이러한 기하학적 통찰을 바탕으로 CurveStream은 곡률 점수를 통해 실시간 의미 강도를 평가하고, 온라인 K-시그마 동적 임계값을 통합하여 엄격한 토큰 예산 내에서 프레임을 명확 메모리 상태와 퍼지 메모리 상태로 적응적으로 라우팅합니다. 다양한 시간 규모에 걸친 평가 결과, 이 경량 프레임워크인 CurveStream이 각각의 기준선 대비 10% 이상(예: StreamingBench에서 10.69%, OVOBench에서 13.58%)의 절대적 성능 향상을 지속적으로 달성하여 스트리밍 비디오 인식을 위한 새로운 최첨단 결과를 수립함을 확인했습니다. 코드는 https://github.com/streamingvideos/CurveStream 에 공개될 예정입니다.
English
Multimodal Large Language Models have achieved significant success in offline video understanding, yet their application to streaming videos is severely limited by the linear explosion of visual tokens, which often leads to Out-of-Memory (OOM) errors or catastrophic forgetting. Existing visual retention and memory management methods typically rely on uniform sampling, low-level physical metrics, or passive cache eviction. However, these strategies often lack intrinsic semantic awareness, potentially disrupting contextual coherence and blurring transient yet critical semantic transitions. To address these limitations, we propose CurveStream, a training-free, curvature-aware hierarchical visual memory management framework. Our approach is motivated by the key observation that high-curvature regions along continuous feature trajectories closely align with critical global semantic transitions. Based on this geometric insight, CurveStream evaluates real-time semantic intensity via a Curvature Score and integrates an online K-Sigma dynamic threshold to adaptively route frames into clear and fuzzy memory states under a strict token budget. Evaluations across diverse temporal scales confirm that this lightweight framework, CurveStream, consistently yields absolute performance gains of over 10% (e.g., 10.69% on StreamingBench and 13.58% on OVOBench) over respective baselines, establishing new state-of-the-art results for streaming video perception.The code will be released at https://github.com/streamingvideos/CurveStream.
PDF21March 24, 2026