Proact-VL: Een proactieve VideoLLM voor realtime AI-gezelschapsagenten
Proact-VL: A Proactive VideoLLM for Real-Time AI Companions
March 3, 2026
Auteurs: Weicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian
cs.AI
Samenvatting
Proactieve en realtime interactieve ervaringen zijn essentieel voor mensachtige AI-gezelschappen, maar worden geconfronteerd met drie belangrijke uitdagingen: (1) het bereiken van inferentie met lage latentie onder continue streaminginputs, (2) autonoom beslissen wanneer te reageren, en (3) het beheersen van zowel kwaliteit als hoeveelheid gegenereerde inhoud om aan realtime beperkingen te voldoen. In dit werk concretiseren we AI-gezelschappen via twee gamingscenario's, commentator en gids, geselecteerd vanwege hun geschiktheid voor automatische evaluatie. We introduceren de Live Gaming Benchmark, een grootschalige dataset met drie representatieve scenario's: solo-commentaar, co-commentaar en gebruikersbegeleiding, en presenteren Proact-VL, een algemeen framework dat multimodale taalmodellen vormt tot proactieve, realtime interactieve agents die in staat zijn tot mensachtige omgevingswaarneming en interactie. Uitgebreide experimenten tonen aan dat Proact-VL superieure responstijd en kwaliteit bereikt terwijl het sterke videobegripcapaciteiten behoudt, wat de praktische bruikbaarheid voor realtime interactieve toepassingen aantoont.
English
Proactive and real-time interactive experiences are essential for human-like AI companions, yet face three key challenges: (1) achieving low-latency inference under continuous streaming inputs, (2) autonomously deciding when to respond, and (3) controlling both quality and quantity of generated content to meet real-time constraints. In this work, we instantiate AI companions through two gaming scenarios, commentator and guide, selected for their suitability for automatic evaluation. We introduce the Live Gaming Benchmark, a large-scale dataset with three representative scenarios: solo commentary, co-commentary, and user guidance, and present Proact-VL, a general framework that shapes multimodal language models into proactive, real-time interactive agents capable of human-like environment perception and interaction. Extensive experiments show Proact-VL achieves superior response latency and quality while maintaining strong video understanding capabilities, demonstrating its practicality for real-time interactive applications.