AURA: Altijd Aanwezige Begrip en Real-time Ondersteuning via Videostreams

Samenvatting

Video Large Language Models (VideoLLM's) hebben sterke prestaties behaald bij veel video-inzichttaken, maar de meeste bestaande systemen blijven offline en zijn niet goed geschikt voor live videostreams die continue observatie en tijdige reactie vereisen. Recente streaming-VideoLLM's hebben vooruitgang geboekt, maar huidige aanpakken zijn vaak afhankelijk van ontkoppelde trigger-responspijplijnen of beperkt tot beschrijvende narratieven, wat hun effectiviteit voor open-eind vraag-antwoordtaken en interactie op lange termijn vermindert. Wij stellen AURA (Always-On Understanding and Real-Time Assistance) voor, een end-to-end streaming visueel interactiekader dat een uniforme VideoLLM in staat stelt om continu videostreams te verwerken en zowel real-time vraag-antwoordtaken als proactieve reacties te ondersteunen. AURA integreert contextbeheer, dataconstructie, trainingsdoelstellingen en implementatie-optimalisatie voor stabiele streaminginteractie op lange termijn. Het behaalt state-of-the-art prestaties op streamingbenchmarks en ondersteunt een real-time demosysteem met ASR en TTS dat op 2 FPS draait op twee 80G-acceleratoren. Wij geven het AURA-model vrij samen met een real-time inferentiekader om toekomstig onderzoek te vergemakkelijken.

English

Video Large Language Models (VideoLLMs) have achieved strong performance on many video understanding tasks, but most existing systems remain offline and are not well-suited for live video streams that require continuous observation and timely response. Recent streaming VideoLLMs have made progress, yet current approaches often rely on decoupled trigger-response pipelines or are limited to captioning-style narration, reducing their effectiveness for open-ended question answering and long-horizon interaction. We propose AURA (Always-On Understanding and Real-Time Assistance), an end-to-end streaming visual interaction framework that enables a unified VideoLLM to continuously process video streams and support both real-time question answering and proactive responses. AURA integrates context management, data construction, training objectives, and deployment optimization for stable long-horizon streaming interaction. It achieves state-of-the-art performance on streaming benchmarks and supports a real-time demo system with ASR and TTS running at 2 FPS on two 80G accelerators. We release the AURA model together with a real-time inference framework to facilitate future research.

AURA: Altijd Aanwezige Begrip en Real-time Ondersteuning via Videostreams

AURA: Always-On Understanding and Real-Time Assistance via Video Streams

Samenvatting

Support