Dispider: Permitiendo LLMs de Video con Interacción Activa en Tiempo Real a través de Percepción, Decisión y Reacción Disentanguladas.
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
January 6, 2025
Autores: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
La interacción activa en tiempo real con modelos de lenguaje de video introduce un nuevo paradigma para la interacción humano-computadora, donde el modelo no solo comprende la intención del usuario, sino que también responde mientras procesa continuamente el video en tiempo real. A diferencia de los modelos de lenguaje de video offline, que analizan todo el video antes de responder preguntas, la interacción activa en tiempo real requiere tres capacidades: 1) Percepción: monitoreo de video en tiempo real y captura de interacción. 2) Decisión: generación de interacción proactiva en situaciones adecuadas. 3) Reacción: interacción continua con los usuarios. Sin embargo, existen conflictos inherentes entre las capacidades deseadas. La Decisión y la Reacción requieren una escala y detalle de Percepción contrarios, y la decodificación autoregresiva bloquea la Percepción y la Decisión en tiempo real durante la Reacción. Para unificar las capacidades en conflicto dentro de un sistema armonioso, presentamos Dispider, un sistema que desentraña Percepción, Decisión y Reacción. Dispider cuenta con un módulo ligero de procesamiento de video en tiempo real que rastrea el flujo de video e identifica momentos óptimos para la interacción. Una vez que se activa la interacción, un módulo de interacción asincrónica proporciona respuestas detalladas, mientras que el módulo de procesamiento continúa monitoreando el video en ese momento. Nuestro diseño desentrañado y asincrónico garantiza respuestas oportunas, precisas en contexto y eficientes computacionalmente, lo que hace a Dispider ideal para la interacción activa en tiempo real en transmisiones de video de larga duración. Los experimentos muestran que Dispider no solo mantiene un rendimiento sólido en tareas convencionales de preguntas y respuestas de video, sino que también supera significativamente a modelos en línea anteriores en respuestas de escenarios de transmisión, validando así la efectividad de nuestra arquitectura. El código y el modelo se encuentran disponibles en https://github.com/Mark12Ding/Dispider.
English
Active Real-time interaction with video LLMs introduces a new paradigm for
human-computer interaction, where the model not only understands user intent
but also responds while continuously processing streaming video on the fly.
Unlike offline video LLMs, which analyze the entire video before answering
questions, active real-time interaction requires three capabilities: 1)
Perception: real-time video monitoring and interaction capturing. 2) Decision:
raising proactive interaction in proper situations, 3) Reaction: continuous
interaction with users. However, inherent conflicts exist among the desired
capabilities. The Decision and Reaction require a contrary Perception scale and
grain, and the autoregressive decoding blocks the real-time Perception and
Decision during the Reaction. To unify the conflicted capabilities within a
harmonious system, we present Dispider, a system that disentangles Perception,
Decision, and Reaction. Dispider features a lightweight proactive streaming
video processing module that tracks the video stream and identifies optimal
moments for interaction. Once the interaction is triggered, an asynchronous
interaction module provides detailed responses, while the processing module
continues to monitor the video in the meantime. Our disentangled and
asynchronous design ensures timely, contextually accurate, and computationally
efficient responses, making Dispider ideal for active real-time interaction for
long-duration video streams. Experiments show that Dispider not only maintains
strong performance in conventional video QA tasks, but also significantly
surpasses previous online models in streaming scenario responses, thereby
validating the effectiveness of our architecture. The code and model are
released at https://github.com/Mark12Ding/Dispider.Summary
AI-Generated Summary