Dispider: Het mogelijk maken van Video LLM's met Actieve Real-Time Interactie via Ontwarde Perceptie, Beslissing en Reactie
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
January 6, 2025
Auteurs: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Actieve real-time interactie met video LLM's introduceert een nieuw paradigma voor mens-computerinteractie, waarbij het model niet alleen de intentie van de gebruiker begrijpt, maar ook reageert terwijl het continu streaming video verwerkt tijdens het afspelen. In tegenstelling tot offline video LLM's, die de volledige video analyseren voordat ze vragen beantwoorden, vereist actieve real-time interactie drie capaciteiten: 1) Perceptie: real-time video monitoring en interactie vastleggen. 2) Beslissing: proactieve interactie initiëren in passende situaties. 3) Reactie: continue interactie met gebruikers. Er bestaan echter inherente conflicten tussen de gewenste capaciteiten. De Beslissing en Reactie vereisen een tegengestelde Perceptie schaal en granulariteit, en de autoregressieve decodering blokkeert de real-time Perceptie en Beslissing tijdens de Reactie. Om de conflicterende capaciteiten te verenigen binnen een harmonieus systeem, presenteren we Dispider, een systeem dat Perceptie, Beslissing en Reactie ontwart. Dispider bevat een lichtgewicht proactieve streaming videoverwerkingsmodule die de videostream volgt en optimale momenten voor interactie identificeert. Zodra de interactie wordt geactiveerd, biedt een asynchrone interactiemodule gedetailleerde antwoorden, terwijl de verwerkingsmodule ondertussen de video blijft monitoren. Ons ontwarde en asynchrone ontwerp zorgt voor tijdige, contextueel nauwkeurige en rekenkundig efficiënte antwoorden, waardoor Dispider ideaal is voor actieve real-time interactie met langdurige videostreams. Experimenten tonen aan dat Dispider niet alleen sterke prestaties behoudt bij conventionele video-vraag-en-antwoordtaken, maar ook aanzienlijk beter presteert dan eerdere online modellen in streaming scenario reacties, waarmee de effectiviteit van onze architectuur wordt bevestigd. De code en het model zijn beschikbaar op https://github.com/Mark12Ding/Dispider.
English
Active Real-time interaction with video LLMs introduces a new paradigm for
human-computer interaction, where the model not only understands user intent
but also responds while continuously processing streaming video on the fly.
Unlike offline video LLMs, which analyze the entire video before answering
questions, active real-time interaction requires three capabilities: 1)
Perception: real-time video monitoring and interaction capturing. 2) Decision:
raising proactive interaction in proper situations, 3) Reaction: continuous
interaction with users. However, inherent conflicts exist among the desired
capabilities. The Decision and Reaction require a contrary Perception scale and
grain, and the autoregressive decoding blocks the real-time Perception and
Decision during the Reaction. To unify the conflicted capabilities within a
harmonious system, we present Dispider, a system that disentangles Perception,
Decision, and Reaction. Dispider features a lightweight proactive streaming
video processing module that tracks the video stream and identifies optimal
moments for interaction. Once the interaction is triggered, an asynchronous
interaction module provides detailed responses, while the processing module
continues to monitor the video in the meantime. Our disentangled and
asynchronous design ensures timely, contextually accurate, and computationally
efficient responses, making Dispider ideal for active real-time interaction for
long-duration video streams. Experiments show that Dispider not only maintains
strong performance in conventional video QA tasks, but also significantly
surpasses previous online models in streaming scenario responses, thereby
validating the effectiveness of our architecture. The code and model are
released at https://github.com/Mark12Ding/Dispider.Summary
AI-Generated Summary