Proact-VL : Un modèle vidéo-langage proactif pour les compagnons d'IA en temps réel
Proact-VL: A Proactive VideoLLM for Real-Time AI Companions
March 3, 2026
Auteurs: Weicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian
cs.AI
Résumé
Les expériences interactives proactives et en temps réel sont essentielles pour des compagnons IA humanoïdes, mais elles rencontrent trois défis majeurs : (1) réaliser une inférence à faible latence avec des entrées en flux continu, (2) décider de manière autonome du moment de répondre, et (3) contrôler à la fois la qualité et la quantité du contenu généré pour respecter les contraintes de temps réel. Dans ce travail, nous matérialisons ces compagnons IA à travers deux scénarios de jeu, commentateur et guide, choisis pour leur pertinence en évaluation automatique. Nous présentons le Live Gaming Benchmark, un jeu de données à grande échelle comprenant trois scénarios représentatifs : commentaire solo, co-commentaire et guidage utilisateur, et proposons Proact-VL, un cadre général transformant les modèles linguistiques multimodaux en agents interactifs proactifs et temps réel, capables d'une perception et d'interaction environnementale humanoïdes. Des expériences approfondies montrent que Proact-VL atteint une latence de réponse et une qualité supérieures tout en conservant de solides capacités de compréhension vidéo, démontrant ainsi sa praticabilité pour les applications interactives en temps réel.
English
Proactive and real-time interactive experiences are essential for human-like AI companions, yet face three key challenges: (1) achieving low-latency inference under continuous streaming inputs, (2) autonomously deciding when to respond, and (3) controlling both quality and quantity of generated content to meet real-time constraints. In this work, we instantiate AI companions through two gaming scenarios, commentator and guide, selected for their suitability for automatic evaluation. We introduce the Live Gaming Benchmark, a large-scale dataset with three representative scenarios: solo commentary, co-commentary, and user guidance, and present Proact-VL, a general framework that shapes multimodal language models into proactive, real-time interactive agents capable of human-like environment perception and interaction. Extensive experiments show Proact-VL achieves superior response latency and quality while maintaining strong video understanding capabilities, demonstrating its practicality for real-time interactive applications.