Proact-VL: Ein proaktiver VideoLLM für Echtzeit-KI-Begleiter
Proact-VL: A Proactive VideoLLM for Real-Time AI Companions
March 3, 2026
Autoren: Weicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian
cs.AI
Zusammenfassung
Proaktive und echtzeitfähige interaktive Erfahrungen sind entscheidend für menschenähnliche KI-Begleiter, stehen jedoch vor drei zentralen Herausforderungen: (1) die Erzielung von Inferenz mit geringer Latenz bei kontinuierlichen Streaming-Eingaben, (2) die autonome Entscheidung, wann geantwortet werden soll, und (3) die Kontrolle sowohl der Qualität als auch der Menge der generierten Inhalte, um Echtzeitanforderungen zu erfüllen. In dieser Arbeit instanziieren wir KI-Begleiter anhand zweier Spielszenarien, Kommentator und Begleiter, die aufgrund ihrer Eignung für die automatische Evaluation ausgewählt wurden. Wir stellen den Live Gaming Benchmark vor, einen umfangreichen Datensatz mit drei repräsentativen Szenarien: Solo-Kommentar, Co-Kommentar und Benutzerführung, und präsentieren Proact-VL, ein allgemeines Framework, das multimodale Sprachmodelle zu proaktiven, echtzeitfähigen interaktiven Agenten formt, die in der Lage sind, menschenähnliche Umgebungswahrnehmung und Interaktion durchzuführen. Umfangreiche Experimente zeigen, dass Proact-VL eine überlegene Antwortlatenz und -qualität bei gleichzeitig starken Videoanalysefähigkeiten erreicht, was seine Praxistauglichkeit für echtzeitfähige interaktive Anwendungen demonstriert.
English
Proactive and real-time interactive experiences are essential for human-like AI companions, yet face three key challenges: (1) achieving low-latency inference under continuous streaming inputs, (2) autonomously deciding when to respond, and (3) controlling both quality and quantity of generated content to meet real-time constraints. In this work, we instantiate AI companions through two gaming scenarios, commentator and guide, selected for their suitability for automatic evaluation. We introduce the Live Gaming Benchmark, a large-scale dataset with three representative scenarios: solo commentary, co-commentary, and user guidance, and present Proact-VL, a general framework that shapes multimodal language models into proactive, real-time interactive agents capable of human-like environment perception and interaction. Extensive experiments show Proact-VL achieves superior response latency and quality while maintaining strong video understanding capabilities, demonstrating its practicality for real-time interactive applications.