STRIDE: 스트리밍 비디오 이해를 위한 음성 활성화 시점과 시퀀스 노이즈 제거의 만남
STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding
March 29, 2026
저자: Junho Kim, Hosu Lee, James M. Rehg, Minsu Kim, Yong Man Ro
cs.AI
초록
최근 비디오 대규모 언어 모델(Video-LLM)의 발전으로 길고 복잡한 비디오에 대한 강력한 오프라인 추론이 가능해졌습니다. 그러나 실제 환경에서의 적용은 점점 더 스트리밍 인식과 능동적 상호작용을 요구하는데, 여기서는 비디오 프레임이 온라인으로 도착하며 시스템은 무엇을 응답할지 뿐만 아니라 언제 응답할지도 결정해야 합니다. 본 연구에서는 스트리밍 비디오에서의 능동적 활성화를 구조화된 시퀀스 모델링 문제로 재조명합니다. 이는 스트리밍 비디오의 시간적 전환이 자연스럽게 스팬 구조의 활성화 패턴을 형성한다는 관찰에서 출발하였습니다. 이러한 스팬 수준의 구조를 포착하기 위해, 우리는 슬라이딩 시간 창 내에서 활성화 신호를 공동으로 모델링하고 새로운 프레임이 도착함에 따라 이를 반복적으로 업데이트합니다. 우리는 STRIDE(Structured Temporal Refinement with Iterative DEnoising)를 제안하며, 이는 활성화 인터페이스에 경량 마스크 확산 모듈을 도입하여 시간 창 전반에 걸친 활성화 신호를 공동으로 예측하고 점진적으로 정제합니다. 다양한 스트리밍 벤치마크와 하류 모델에 대한 폭넓은 실험을 통해 STRIDE가 더욱 신뢰할 수 있고 시간적으로 일관된 능동적 응답을 보여주며, 온라인 스트리밍 시나리오에서 '언제 말할지'에 대한 결정 품질을 크게 향상시킴을 입증했습니다.
English
Recent progress in video large language models (Video-LLMs) has enabled strong offline reasoning over long and complex videos. However, real-world deployments increasingly require streaming perception and proactive interaction, where video frames arrive online and the system must decide not only what to respond, but also when to respond. In this work, we revisit proactive activation in streaming video as a structured sequence modeling problem, motivated by the observation that temporal transitions in streaming video naturally form span-structured activation patterns. To capture this span-level structure, we model activation signals jointly over a sliding temporal window and update them iteratively as new frames arrive. We propose STRIDE (Structured Temporal Refinement with Iterative DEnoising), which employs a lightweight masked diffusion module at the activation interface to jointly predict and progressively refine activation signals across the window. Extensive experiments on diverse streaming benchmarks and downstream models demonstrate that STRIDE shows more reliable and temporally coherent proactive responses, significantly improving when-to-speak decision quality in online streaming scenarios.