Диспайдер: Обеспечение видео LLM с активным взаимодействием в реальном времени через декоррелированное восприятие, принятие решений и реакцию.
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
January 6, 2025
Авторы: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Аннотация
Активное взаимодействие в реальном времени с видео LLMs представляет собой новую парадигму взаимодействия человека с компьютером, где модель не только понимает намерения пользователя, но и реагирует, продолжая обрабатывать потоковое видео на лету. В отличие от офлайн видео LLMs, которые анализируют всё видео перед ответом на вопросы, активное взаимодействие в реальном времени требует трех возможностей: 1) Восприятие: мониторинг видео в реальном времени и захват взаимодействия. 2) Принятие решений: инициирование проактивного взаимодействия в подходящих ситуациях. 3) Реакция: непрерывное взаимодействие с пользователями. Однако существуют внутренние конфликты между желаемыми возможностями. Принятие решений и Реакция требуют противоположного масштаба и детализации Восприятия, а авторегрессивное декодирование блокирует реальное Восприятие и Принятие решений во время Реакции. Для объединения конфликтующих возможностей в гармоничной системе мы представляем Dispider, систему, которая разъединяет Восприятие, Принятие решений и Реакцию. Dispider включает легковесный модуль потоковой обработки видео, который отслеживает видеопоток и определяет оптимальные моменты для взаимодействия. Как только взаимодействие инициируется, асинхронный модуль взаимодействия предоставляет детальные ответы, в то время как модуль обработки продолжает мониторинг видео. Наша разъединенная и асинхронная концепция обеспечивает своевременные, контекстно точные и вычислительно эффективные ответы, делая Dispider идеальным для активного взаимодействия в реальном времени с длительными видеопотоками. Эксперименты показывают, что Dispider не только поддерживает высокую производительность в традиционных задачах вопросов и ответов на видео, но и значительно превосходит предыдущие онлайн модели в ответах на сценарии потоковой передачи, тем самым подтверждая эффективность нашей архитектуры. Код и модель доступны по ссылке https://github.com/Mark12Ding/Dispider.
English
Active Real-time interaction with video LLMs introduces a new paradigm for
human-computer interaction, where the model not only understands user intent
but also responds while continuously processing streaming video on the fly.
Unlike offline video LLMs, which analyze the entire video before answering
questions, active real-time interaction requires three capabilities: 1)
Perception: real-time video monitoring and interaction capturing. 2) Decision:
raising proactive interaction in proper situations, 3) Reaction: continuous
interaction with users. However, inherent conflicts exist among the desired
capabilities. The Decision and Reaction require a contrary Perception scale and
grain, and the autoregressive decoding blocks the real-time Perception and
Decision during the Reaction. To unify the conflicted capabilities within a
harmonious system, we present Dispider, a system that disentangles Perception,
Decision, and Reaction. Dispider features a lightweight proactive streaming
video processing module that tracks the video stream and identifies optimal
moments for interaction. Once the interaction is triggered, an asynchronous
interaction module provides detailed responses, while the processing module
continues to monitor the video in the meantime. Our disentangled and
asynchronous design ensures timely, contextually accurate, and computationally
efficient responses, making Dispider ideal for active real-time interaction for
long-duration video streams. Experiments show that Dispider not only maintains
strong performance in conventional video QA tasks, but also significantly
surpasses previous online models in streaming scenario responses, thereby
validating the effectiveness of our architecture. The code and model are
released at https://github.com/Mark12Ding/Dispider.Summary
AI-Generated Summary