Proact-VL: Un VideoLLM Proattivo per Compagni IA in Tempo Reale
Proact-VL: A Proactive VideoLLM for Real-Time AI Companions
March 3, 2026
Autori: Weicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian
cs.AI
Abstract
Esperienze interattive proattive e in tempo reale sono essenziali per i compagni di intelligenza artificiale simili a esseri umani, ma affrontano tre sfide principali: (1) ottenere inferenze a bassa latenza con input in streaming continuo, (2) decidere autonomamente quando rispondere e (3) controllare sia la qualità che la quantità dei contenuti generati per soddisfare i vincoli di tempo reale. In questo lavoro, istanziamo i compagni di IA attraverso due scenari di gioco, commentatore e guida, selezionati per la loro idoneità alla valutazione automatica. Introduciamo il Live Gaming Benchmark, un dataset su larga scala con tre scenari rappresentativi: commento solista, co-commento e guida utente, e presentiamo Proact-VL, un framework generale che modella i modelli linguistici multimodali in agenti interattivi proattivi e in tempo reale, capaci di percezione e interazione ambientale simil-umana. Esperimenti estensivi dimostrano che Proact-VL raggiunge una latenza di risposta e una qualità superiori, mantenendo al contempo solide capacità di comprensione video, dimostrandone la praticità per applicazioni interattive in tempo reale.
English
Proactive and real-time interactive experiences are essential for human-like AI companions, yet face three key challenges: (1) achieving low-latency inference under continuous streaming inputs, (2) autonomously deciding when to respond, and (3) controlling both quality and quantity of generated content to meet real-time constraints. In this work, we instantiate AI companions through two gaming scenarios, commentator and guide, selected for their suitability for automatic evaluation. We introduce the Live Gaming Benchmark, a large-scale dataset with three representative scenarios: solo commentary, co-commentary, and user guidance, and present Proact-VL, a general framework that shapes multimodal language models into proactive, real-time interactive agents capable of human-like environment perception and interaction. Extensive experiments show Proact-VL achieves superior response latency and quality while maintaining strong video understanding capabilities, demonstrating its practicality for real-time interactive applications.