Dispider: Ermöglichen von Video-Langzeitgedächtnis-Modellen mit aktiver Echtzeitinteraktion über entwirrte Wahrnehmung, Entscheidung und Reaktion

papers.abstract

Die aktive Echtzeitinteraktion mit Video-LLMs führt ein neues Paradigma für die Mensch-Computer-Interaktion ein, bei dem das Modell nicht nur die Benutzerabsicht versteht, sondern auch antwortet, während es kontinuierlich Streaming-Videos verarbeitet. Im Gegensatz zu Offline-Video-LLMs, die das gesamte Video analysieren, bevor sie Fragen beantworten, erfordert die aktive Echtzeitinteraktion drei Fähigkeiten: 1) Wahrnehmung: Echtzeit-Videomonitoring und Interaktionserfassung. 2) Entscheidung: proaktive Interaktion in geeigneten Situationen. 3) Reaktion: kontinuierliche Interaktion mit Benutzern. Es bestehen jedoch inhärente Konflikte zwischen den gewünschten Fähigkeiten. Die Entscheidung und Reaktion erfordern eine gegensätzliche Skala und Feinheit der Wahrnehmung, und die autoregressive Dekodierung blockiert die Echtzeit-Wahrnehmung und Entscheidung während der Reaktion. Um die konfliktären Fähigkeiten in einem harmonischen System zu vereinen, präsentieren wir Dispider, ein System, das Wahrnehmung, Entscheidung und Reaktion entwirrt. Dispider verfügt über ein leichtgewichtiges proaktives Streaming-Videoverarbeitungsmodul, das den Videostream verfolgt und optimale Momente für die Interaktion identifiziert. Sobald die Interaktion ausgelöst wird, bietet ein asynchrones Interaktionsmodul detaillierte Antworten, während das Verarbeitungsmodul gleichzeitig den Videostream überwacht. Unser entwirrtes und asynchrones Design gewährleistet zeitnahe, kontextuell genaue und rechnerisch effiziente Antworten, wodurch Dispider ideal für die aktive Echtzeitinteraktion bei langen Videostreams ist. Experimente zeigen, dass Dispider nicht nur starke Leistungen bei herkömmlichen Video-F&A-Aufgaben aufrechterhält, sondern auch frühere Online-Modelle bei Antworten in Streaming-Szenarien signifikant übertrifft, was die Wirksamkeit unserer Architektur bestätigt. Der Code und das Modell sind unter https://github.com/Mark12Ding/Dispider verfügbar.

English

Active Real-time interaction with video LLMs introduces a new paradigm for human-computer interaction, where the model not only understands user intent but also responds while continuously processing streaming video on the fly. Unlike offline video LLMs, which analyze the entire video before answering questions, active real-time interaction requires three capabilities: 1) Perception: real-time video monitoring and interaction capturing. 2) Decision: raising proactive interaction in proper situations, 3) Reaction: continuous interaction with users. However, inherent conflicts exist among the desired capabilities. The Decision and Reaction require a contrary Perception scale and grain, and the autoregressive decoding blocks the real-time Perception and Decision during the Reaction. To unify the conflicted capabilities within a harmonious system, we present Dispider, a system that disentangles Perception, Decision, and Reaction. Dispider features a lightweight proactive streaming video processing module that tracks the video stream and identifies optimal moments for interaction. Once the interaction is triggered, an asynchronous interaction module provides detailed responses, while the processing module continues to monitor the video in the meantime. Our disentangled and asynchronous design ensures timely, contextually accurate, and computationally efficient responses, making Dispider ideal for active real-time interaction for long-duration video streams. Experiments show that Dispider not only maintains strong performance in conventional video QA tasks, but also significantly surpasses previous online models in streaming scenario responses, thereby validating the effectiveness of our architecture. The code and model are released at https://github.com/Mark12Ding/Dispider.

Dispider: Ermöglichen von Video-Langzeitgedächtnis-Modellen mit aktiver Echtzeitinteraktion über entwirrte Wahrnehmung, Entscheidung und Reaktion

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

papers.abstract

Support