Dispider : Permettre aux LLM vidéo d'interagir en temps réel via une Perception, Décision et Réaction Désenchevêtrées.
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
January 6, 2025
Auteurs: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Résumé
L'interaction active en temps réel avec les modèles de langage sur vidéo introduit un nouveau paradigme pour l'interaction homme-machine, où le modèle comprend non seulement l'intention de l'utilisateur mais répond également tout en traitant en continu la vidéo en streaming à la volée. Contrairement aux modèles de langage sur vidéo hors ligne, qui analysent l'intégralité de la vidéo avant de répondre aux questions, l'interaction active en temps réel nécessite trois capacités : 1) Perception : surveillance vidéo en temps réel et capture d'interaction. 2) Décision : déclenchement d'interactions proactives dans des situations appropriées. 3) Réaction : interaction continue avec les utilisateurs. Cependant, des conflits inhérents existent entre les capacités souhaitées. La Décision et la Réaction nécessitent une échelle et une granularité de Perception contraires, et le décodage autorégressif bloque la Perception et la Décision en temps réel pendant la Réaction. Pour unifier les capacités en conflit au sein d'un système harmonieux, nous présentons Dispider, un système qui démêle la Perception, la Décision et la Réaction. Dispider présente un module de traitement vidéo en streaming proactif léger qui suit le flux vidéo et identifie les moments optimaux pour l'interaction. Une fois l'interaction déclenchée, un module d'interaction asynchrone fournit des réponses détaillées, tandis que le module de traitement continue de surveiller la vidéo en attendant. Notre conception désenchevêtrée et asynchrone garantit des réponses opportunes, précises sur le plan contextuel et efficaces sur le plan computationnel, ce qui rend Dispider idéal pour l'interaction active en temps réel sur des flux vidéo de longue durée. Les expériences montrent que Dispider maintient non seulement de bonnes performances dans les tâches classiques de questions-réponses sur vidéo, mais dépasse également de manière significative les modèles en ligne précédents dans les réponses en scénario de streaming, validant ainsi l'efficacité de notre architecture. Le code et le modèle sont disponibles sur https://github.com/Mark12Ding/Dispider.
English
Active Real-time interaction with video LLMs introduces a new paradigm for
human-computer interaction, where the model not only understands user intent
but also responds while continuously processing streaming video on the fly.
Unlike offline video LLMs, which analyze the entire video before answering
questions, active real-time interaction requires three capabilities: 1)
Perception: real-time video monitoring and interaction capturing. 2) Decision:
raising proactive interaction in proper situations, 3) Reaction: continuous
interaction with users. However, inherent conflicts exist among the desired
capabilities. The Decision and Reaction require a contrary Perception scale and
grain, and the autoregressive decoding blocks the real-time Perception and
Decision during the Reaction. To unify the conflicted capabilities within a
harmonious system, we present Dispider, a system that disentangles Perception,
Decision, and Reaction. Dispider features a lightweight proactive streaming
video processing module that tracks the video stream and identifies optimal
moments for interaction. Once the interaction is triggered, an asynchronous
interaction module provides detailed responses, while the processing module
continues to monitor the video in the meantime. Our disentangled and
asynchronous design ensures timely, contextually accurate, and computationally
efficient responses, making Dispider ideal for active real-time interaction for
long-duration video streams. Experiments show that Dispider not only maintains
strong performance in conventional video QA tasks, but also significantly
surpasses previous online models in streaming scenario responses, thereby
validating the effectiveness of our architecture. The code and model are
released at https://github.com/Mark12Ding/Dispider.Summary
AI-Generated Summary