ChatPaper.aiChatPaper

AURA: ビデオストリームによる常時理解とリアルタイム支援

AURA: Always-On Understanding and Real-Time Assistance via Video Streams

April 5, 2026
著者: Xudong Lu, Yang Bo, Jinpeng Chen, Shuhan Li, Xintong Guo, Huankang Guan, Fang Liu, Dunyuan Xu, Peiwen Sun, Heyang Sun, Rui Liu, Hongsheng Li
cs.AI

要旨

ビデオ大規模言語モデル(VideoLLM)は、多くの映像理解タスクで優れた性能を達成しているが、既存システムの大半はオフラインであり、継続的な観察とタイムリーな応答を必要とするライブ映像ストリームには適していない。近年のストリーミングVideoLLMは進展を見せているものの、現在のアプローチは分離されたトリガー応答パイプラインに依存するか、キャプション形式のナレーションに限定されることが多く、オープンエンドの質問応答や長期的な対話における有効性が低下している。我々はAURA(常時理解・リアルタイム支援)を提案する。これは、統一されたVideoLLMが映像ストリームを継続的に処理し、リアルタイム質問応答と能動的応答の両方を可能にするエンドツーエンドのストリーミング視覚対話フレームワークである。AURAは、安定した長期的ストリーミング対話のための文脈管理、データ構築、学習目標、デプロイ最適化を統合する。ストリーミングベンチマークでState-of-the-Art性能を達成し、2台の80Gアクセラレータ上でASRとTTSを動作させた2 FPSのリアルタイムデモシステムを実現する。今後の研究促進のため、AURAモデルとリアルタイム推論フレームワークを公開する。
English
Video Large Language Models (VideoLLMs) have achieved strong performance on many video understanding tasks, but most existing systems remain offline and are not well-suited for live video streams that require continuous observation and timely response. Recent streaming VideoLLMs have made progress, yet current approaches often rely on decoupled trigger-response pipelines or are limited to captioning-style narration, reducing their effectiveness for open-ended question answering and long-horizon interaction. We propose AURA (Always-On Understanding and Real-Time Assistance), an end-to-end streaming visual interaction framework that enables a unified VideoLLM to continuously process video streams and support both real-time question answering and proactive responses. AURA integrates context management, data construction, training objectives, and deployment optimization for stable long-horizon streaming interaction. It achieves state-of-the-art performance on streaming benchmarks and supports a real-time demo system with ASR and TTS running at 2 FPS on two 80G accelerators. We release the AURA model together with a real-time inference framework to facilitate future research.
PDF372April 8, 2026