AURA: Comprensión Permanente y Asistencia en Tiempo Real mediante Flujos de Vídeo

Resumen

Los Modelos de Lenguaje Grandes para Video (VideoLLM) han logrado un rendimiento sólido en muchas tareas de comprensión de video, pero la mayoría de los sistemas existentes siguen siendo offline y no son adecuados para flujos de video en vivo que requieren observación continua y respuesta oportuna. Los VideoLLM de transmisión recientes han hecho progresos, pero los enfoques actuales a menudo dependen de pipelines desacoplados de activación-respuesta o se limitan a narraciones de estilo subtitulado, reduciendo su eficacia para preguntas abiertas e interacción de horizonte largo. Proponemos AURA (Comprensión Siempre Activa y Asistencia en Tiempo Real), un marco de interacción visual de transmisión integral que permite a un VideoLLM unificado procesar continuamente flujos de video y admitir tanto preguntas en tiempo real como respuestas proactivas. AURA integra gestión de contexto, construcción de datos, objetivos de entrenamiento y optimización de implementación para una interacción de transmisión estable a largo plazo. Logra un rendimiento de vanguardia en benchmarks de transmisión y admite un sistema de demostración en tiempo real con ASR y TTS que funciona a 2 FPS en dos aceleradores de 80G. Publicamos el modelo AURA junto con un marco de inferencia en tiempo real para facilitar futuras investigaciones.

English

Video Large Language Models (VideoLLMs) have achieved strong performance on many video understanding tasks, but most existing systems remain offline and are not well-suited for live video streams that require continuous observation and timely response. Recent streaming VideoLLMs have made progress, yet current approaches often rely on decoupled trigger-response pipelines or are limited to captioning-style narration, reducing their effectiveness for open-ended question answering and long-horizon interaction. We propose AURA (Always-On Understanding and Real-Time Assistance), an end-to-end streaming visual interaction framework that enables a unified VideoLLM to continuously process video streams and support both real-time question answering and proactive responses. AURA integrates context management, data construction, training objectives, and deployment optimization for stable long-horizon streaming interaction. It achieves state-of-the-art performance on streaming benchmarks and supports a real-time demo system with ASR and TTS running at 2 FPS on two 80G accelerators. We release the AURA model together with a real-time inference framework to facilitate future research.

AURA: Comprensión Permanente y Asistencia en Tiempo Real mediante Flujos de Vídeo

AURA: Always-On Understanding and Real-Time Assistance via Video Streams

Resumen

Support