STRIDE : Quand parler rencontre le débruitage de séquences pour la compréhension vidéo en flux continu

Résumé

Les progrès récents des grands modèles de langage vidéo (Video-LLM) ont permis un raisonnement hors ligne performant sur des vidéos longues et complexes. Cependant, les déploiements en conditions réelles exigent de plus en plus une perception en flux continu et une interaction proactive, où les images vidéo arrivent en ligne et le système doit décider non seulement de quoi répondre, mais aussi quand répondre. Dans ce travail, nous revisitons l'activation proactive dans le flux vidéo en tant que problème de modélisation de séquences structurées, motivés par l'observation que les transitions temporelles dans le flux vidéo forment naturellement des motifs d'activation structurés en spans temporels. Pour capturer cette structure au niveau des spans, nous modélisons conjointement les signaux d'activation sur une fenêtre temporelle glissante et les mettons à jour de manière itérative à l'arrivée de nouvelles images. Nous proposons STRIDE (Structured Temporal Refinement with Iterative DEnoising), qui utilise un module de diffusion masquée léger à l'interface d'activation pour prédire et raffiner progressivement de manière conjointe les signaux d'activation à travers la fenêtre. Des expériences approfondies sur divers benchmarks de flux continu et modèles en aval démontrent que STRIDE produit des réponses proactives plus fiables et temporellement cohérentes, améliorant significativement la qualité des décisions de quand-parler dans les scénarios de streaming en ligne.

English

Recent progress in video large language models (Video-LLMs) has enabled strong offline reasoning over long and complex videos. However, real-world deployments increasingly require streaming perception and proactive interaction, where video frames arrive online and the system must decide not only what to respond, but also when to respond. In this work, we revisit proactive activation in streaming video as a structured sequence modeling problem, motivated by the observation that temporal transitions in streaming video naturally form span-structured activation patterns. To capture this span-level structure, we model activation signals jointly over a sliding temporal window and update them iteratively as new frames arrive. We propose STRIDE (Structured Temporal Refinement with Iterative DEnoising), which employs a lightweight masked diffusion module at the activation interface to jointly predict and progressively refine activation signals across the window. Extensive experiments on diverse streaming benchmarks and downstream models demonstrate that STRIDE shows more reliable and temporally coherent proactive responses, significantly improving when-to-speak decision quality in online streaming scenarios.

STRIDE : Quand parler rencontre le débruitage de séquences pour la compréhension vidéo en flux continu

STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding

Résumé

Support