Dispider: Ermöglichen von Video-Langzeitgedächtnis-Modellen mit aktiver Echtzeitinteraktion über entwirrte Wahrnehmung, Entscheidung und Reaktion
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
January 6, 2025
Autoren: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Zusammenfassung
Die aktive Echtzeitinteraktion mit Video-LLMs führt ein neues Paradigma für die Mensch-Computer-Interaktion ein, bei dem das Modell nicht nur die Benutzerabsicht versteht, sondern auch antwortet, während es kontinuierlich Streaming-Videos verarbeitet. Im Gegensatz zu Offline-Video-LLMs, die das gesamte Video analysieren, bevor sie Fragen beantworten, erfordert die aktive Echtzeitinteraktion drei Fähigkeiten: 1) Wahrnehmung: Echtzeit-Videomonitoring und Interaktionserfassung. 2) Entscheidung: proaktive Interaktion in geeigneten Situationen. 3) Reaktion: kontinuierliche Interaktion mit Benutzern. Es bestehen jedoch inhärente Konflikte zwischen den gewünschten Fähigkeiten. Die Entscheidung und Reaktion erfordern eine gegensätzliche Skala und Feinheit der Wahrnehmung, und die autoregressive Dekodierung blockiert die Echtzeit-Wahrnehmung und Entscheidung während der Reaktion. Um die konfliktären Fähigkeiten in einem harmonischen System zu vereinen, präsentieren wir Dispider, ein System, das Wahrnehmung, Entscheidung und Reaktion entwirrt. Dispider verfügt über ein leichtgewichtiges proaktives Streaming-Videoverarbeitungsmodul, das den Videostream verfolgt und optimale Momente für die Interaktion identifiziert. Sobald die Interaktion ausgelöst wird, bietet ein asynchrones Interaktionsmodul detaillierte Antworten, während das Verarbeitungsmodul gleichzeitig den Videostream überwacht. Unser entwirrtes und asynchrones Design gewährleistet zeitnahe, kontextuell genaue und rechnerisch effiziente Antworten, wodurch Dispider ideal für die aktive Echtzeitinteraktion bei langen Videostreams ist. Experimente zeigen, dass Dispider nicht nur starke Leistungen bei herkömmlichen Video-F&A-Aufgaben aufrechterhält, sondern auch frühere Online-Modelle bei Antworten in Streaming-Szenarien signifikant übertrifft, was die Wirksamkeit unserer Architektur bestätigt. Der Code und das Modell sind unter https://github.com/Mark12Ding/Dispider verfügbar.
English
Active Real-time interaction with video LLMs introduces a new paradigm for
human-computer interaction, where the model not only understands user intent
but also responds while continuously processing streaming video on the fly.
Unlike offline video LLMs, which analyze the entire video before answering
questions, active real-time interaction requires three capabilities: 1)
Perception: real-time video monitoring and interaction capturing. 2) Decision:
raising proactive interaction in proper situations, 3) Reaction: continuous
interaction with users. However, inherent conflicts exist among the desired
capabilities. The Decision and Reaction require a contrary Perception scale and
grain, and the autoregressive decoding blocks the real-time Perception and
Decision during the Reaction. To unify the conflicted capabilities within a
harmonious system, we present Dispider, a system that disentangles Perception,
Decision, and Reaction. Dispider features a lightweight proactive streaming
video processing module that tracks the video stream and identifies optimal
moments for interaction. Once the interaction is triggered, an asynchronous
interaction module provides detailed responses, while the processing module
continues to monitor the video in the meantime. Our disentangled and
asynchronous design ensures timely, contextually accurate, and computationally
efficient responses, making Dispider ideal for active real-time interaction for
long-duration video streams. Experiments show that Dispider not only maintains
strong performance in conventional video QA tasks, but also significantly
surpasses previous online models in streaming scenario responses, thereby
validating the effectiveness of our architecture. The code and model are
released at https://github.com/Mark12Ding/Dispider.Summary
AI-Generated Summary