ChatPaper.aiChatPaper

Proact-VL: Un VideoLLM Proactivo para Acompañantes de IA en Tiempo Real

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

March 3, 2026
Autores: Weicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian
cs.AI

Resumen

Las experiencias interactivas proactivas y en tiempo real son esenciales para los asistentes de IA con capacidades humanas, pero enfrentan tres desafíos clave: (1) lograr una inferencia de baja latencia con entradas de flujo continuo, (2) decidir autónomamente cuándo responder, y (3) controlar tanto la calidad como la cantidad del contenido generado para cumplir con las restricciones de tiempo real. En este trabajo, materializamos los asistentes de IA mediante dos escenarios de juego, comentarista y guía, seleccionados por su idoneidad para la evaluación automática. Presentamos Live Gaming Benchmark, un conjunto de datos a gran escala con tres escenarios representativos: comentario en solitario, co-comentario y guía de usuario, y presentamos Proact-VL, un marco general que adapta los modelos de lenguaje multimodal para convertirlos en agentes interactivos proactivos y en tiempo real, capaces de percibir e interactuar con el entorno de manera similar a los humanos. Experimentos exhaustivos demuestran que Proact-VL logra una latencia y calidad de respuesta superiores mientras mantiene sólidas capacidades de comprensión de video, lo que evidencia su practicidad para aplicaciones interactivas en tiempo real.
English
Proactive and real-time interactive experiences are essential for human-like AI companions, yet face three key challenges: (1) achieving low-latency inference under continuous streaming inputs, (2) autonomously deciding when to respond, and (3) controlling both quality and quantity of generated content to meet real-time constraints. In this work, we instantiate AI companions through two gaming scenarios, commentator and guide, selected for their suitability for automatic evaluation. We introduce the Live Gaming Benchmark, a large-scale dataset with three representative scenarios: solo commentary, co-commentary, and user guidance, and present Proact-VL, a general framework that shapes multimodal language models into proactive, real-time interactive agents capable of human-like environment perception and interaction. Extensive experiments show Proact-VL achieves superior response latency and quality while maintaining strong video understanding capabilities, demonstrating its practicality for real-time interactive applications.
PDF243March 6, 2026