AURA: Compreensão Sempre Ativa e Assistência em Tempo Real por meio de Transmissões de Vídeo

Resumo

Os Modelos de Linguagem de Grande Porte para Vídeo (VideoLLMs) alcançaram um desempenho sólido em muitas tarefas de compreensão de vídeo, mas a maioria dos sistemas existentes permanece offline e não é adequada para transmissões de vídeo ao vivo que exigem observação contínua e resposta oportuna. VideoLLMs de streaming recentes fizeram progressos, mas as abordagens atuais frequentemente dependem de pipelines desacoplados de gatilho-resposta ou estão limitadas a narrações no estilo de legendagem, reduzindo sua eficácia para questionamento de resposta aberta e interação de longo horizonte. Propomos AURA (Compreensão Sempre Ativa e Assistência em Tempo Real), uma estrutura de interação visual de streaming de ponta a ponta que permite a um VideoLLM unificado processar continuamente fluxos de vídeo e suportar tanto questionamento em tempo real quanto respostas proativas. AURA integra gerenciamento de contexto, construção de dados, objetivos de treinamento e otimização de implantação para uma interação de streaming estável de longo horizonte. Ele alcança desempenho de ponta em benchmarks de streaming e suporta um sistema de demonstração em tempo real com ASR e TTS funcionando a 2 FPS em dois aceleradores de 80G. Disponibilizamos o modelo AURA juntamente com uma estrutura de inferência em tempo real para facilitar pesquisas futuras.

English

Video Large Language Models (VideoLLMs) have achieved strong performance on many video understanding tasks, but most existing systems remain offline and are not well-suited for live video streams that require continuous observation and timely response. Recent streaming VideoLLMs have made progress, yet current approaches often rely on decoupled trigger-response pipelines or are limited to captioning-style narration, reducing their effectiveness for open-ended question answering and long-horizon interaction. We propose AURA (Always-On Understanding and Real-Time Assistance), an end-to-end streaming visual interaction framework that enables a unified VideoLLM to continuously process video streams and support both real-time question answering and proactive responses. AURA integrates context management, data construction, training objectives, and deployment optimization for stable long-horizon streaming interaction. It achieves state-of-the-art performance on streaming benchmarks and supports a real-time demo system with ASR and TTS running at 2 FPS on two 80G accelerators. We release the AURA model together with a real-time inference framework to facilitate future research.

AURA: Compreensão Sempre Ativa e Assistência em Tempo Real por meio de Transmissões de Vídeo

AURA: Always-On Understanding and Real-Time Assistance via Video Streams

Resumo

Support