AURA: Comprensione Sempre Attiva e Assistenza in Tempo Reale tramite Flussi Video
AURA: Always-On Understanding and Real-Time Assistance via Video Streams
April 5, 2026
Autori: Xudong Lu, Yang Bo, Jinpeng Chen, Shuhan Li, Xintong Guo, Huankang Guan, Fang Liu, Dunyuan Xu, Peiwen Sun, Heyang Sun, Rui Liu, Hongsheng Li
cs.AI
Abstract
I modelli linguistici di grandi dimensioni per video (VideoLLM) hanno ottenuto prestazioni elevate in numerosi compiti di comprensione video, ma la maggior parte dei sistemi esistenti rimane offline e non è adatta per flussi video in diretta che richiedono un'osservazione continua e una risposta tempestiva. I VideoLLM in streaming recenti hanno compiuto progressi, ma gli approcci attuali spesso si basano su pipeline di attivazione-risposta disaccoppiate o sono limitati a narrazioni di tipo descrittivo, riducendo la loro efficacia per risposte a domande aperte e interazioni a lungo termine. Proponiamo AURA (Always-On Understanding and Real-Time Assistance), un framework di interazione visiva in streaming end-to-end che consente a un VideoLLM unificato di elaborare continuamente flussi video e supportare sia risposte in tempo reale che reazioni proattive. AURA integra la gestione del contesto, la costruzione dei dati, gli obiettivi di addestramento e l'ottimizzazione del deployment per un'interazione stabile in streaming a lungo termine. Raggiunge prestazioni all'avanguardia su benchmark di streaming e supporta un sistema demo in tempo reale con riconoscimento vocale (ASR) e sintesi vocale (TTS) funzionante a 2 FPS su due acceleratori da 80G. Rilasciamo il modello AURA insieme a un framework di inferenza in tempo reale per facilitare la ricerca futura.
English
Video Large Language Models (VideoLLMs) have achieved strong performance on many video understanding tasks, but most existing systems remain offline and are not well-suited for live video streams that require continuous observation and timely response. Recent streaming VideoLLMs have made progress, yet current approaches often rely on decoupled trigger-response pipelines or are limited to captioning-style narration, reducing their effectiveness for open-ended question answering and long-horizon interaction. We propose AURA (Always-On Understanding and Real-Time Assistance), an end-to-end streaming visual interaction framework that enables a unified VideoLLM to continuously process video streams and support both real-time question answering and proactive responses. AURA integrates context management, data construction, training objectives, and deployment optimization for stable long-horizon streaming interaction. It achieves state-of-the-art performance on streaming benchmarks and supports a real-time demo system with ASR and TTS running at 2 FPS on two 80G accelerators. We release the AURA model together with a real-time inference framework to facilitate future research.