AURA : Compréhension Continue et Assistance en Temps Réel via des Flux Vidéo

Résumé

Les modèles de langage de grande taille pour la vidéo (VideoLLM) ont obtenu des performances solides sur de nombreuses tâches de compréhension vidéo, mais la plupart des systèmes existants restent hors ligne et ne sont pas bien adaptés aux flux vidéo en direct qui nécessitent une observation continue et une réponse rapide. Les VideoLLM en flux récents ont réalisé des progrès, mais les approches actuelles reposent souvent sur des pipelines déclencheur-réponse découplés ou se limitent à une narration de type légendage, réduisant ainsi leur efficacité pour le question-réponse ouvert et l'interaction à long terme. Nous proposons AURA (Compréhension Permanente et Assistance en Temps Réel), un cadre d'interaction visuelle en flux continu de bout en bout qui permet à un VideoLLM unifié de traiter continuellement les flux vidéo et de prendre en charge à la fois le question-réponse en temps réel et les réponses proactives. AURA intègre la gestion du contexte, la construction des données, les objectifs d'entraînement et l'optimisation du déploiement pour une interaction en flux continu stable à long terme. Il atteint des performances de pointe sur les benchmarks de streaming et prend en charge un système de démonstration en temps réel avec reconnaissance automatique de la parole et synthèse vocale fonctionnant à 2 images par seconde sur deux accélérateurs de 80 Go. Nous publions le modèle AURA ainsi qu'un cadre d'inférence en temps réel pour faciliter les recherches futures.

English

Video Large Language Models (VideoLLMs) have achieved strong performance on many video understanding tasks, but most existing systems remain offline and are not well-suited for live video streams that require continuous observation and timely response. Recent streaming VideoLLMs have made progress, yet current approaches often rely on decoupled trigger-response pipelines or are limited to captioning-style narration, reducing their effectiveness for open-ended question answering and long-horizon interaction. We propose AURA (Always-On Understanding and Real-Time Assistance), an end-to-end streaming visual interaction framework that enables a unified VideoLLM to continuously process video streams and support both real-time question answering and proactive responses. AURA integrates context management, data construction, training objectives, and deployment optimization for stable long-horizon streaming interaction. It achieves state-of-the-art performance on streaming benchmarks and supports a real-time demo system with ASR and TTS running at 2 FPS on two 80G accelerators. We release the AURA model together with a real-time inference framework to facilitate future research.

AURA : Compréhension Continue et Assistance en Temps Réel via des Flux Vidéo

AURA: Always-On Understanding and Real-Time Assistance via Video Streams

Résumé

Support