Proact-VL: Um VideoLLM Proativo para Companheiros de IA em Tempo Real
Proact-VL: A Proactive VideoLLM for Real-Time AI Companions
March 3, 2026
Autores: Weicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian
cs.AI
Resumo
Experiências interativas proativas e em tempo real são essenciais para companheiros de IA com características humanas, mas enfrentam três desafios principais: (1) alcançar inferência de baixa latência sob entradas contínuas em fluxo, (2) decidir autonomamente quando responder, e (3) controlar a qualidade e a quantidade do conteúdo gerado para atender às restrições de tempo real. Neste trabalho, instanciamos companheiros de IA através de dois cenários de jogo, comentarista e guia, selecionados por sua adequação para avaliação automática. Apresentamos o *Live Gaming Benchmark*, um conjunto de dados em larga escala com três cenários representativos: comentário individual, co-comentário e orientação do usuário, e apresentamos o Proact-VL, uma estrutura geral que molda modelos de linguagem multimodal em agentes interativos proativos e em tempo real, capazes de perceber e interagir com o ambiente de forma humana. Experimentos extensivos mostram que o Proact-VL alcança latência de resposta e qualidade superiores, mantendo fortes capacidades de compreensão de vídeo, demonstrando sua praticidade para aplicações interativas em tempo real.
English
Proactive and real-time interactive experiences are essential for human-like AI companions, yet face three key challenges: (1) achieving low-latency inference under continuous streaming inputs, (2) autonomously deciding when to respond, and (3) controlling both quality and quantity of generated content to meet real-time constraints. In this work, we instantiate AI companions through two gaming scenarios, commentator and guide, selected for their suitability for automatic evaluation. We introduce the Live Gaming Benchmark, a large-scale dataset with three representative scenarios: solo commentary, co-commentary, and user guidance, and present Proact-VL, a general framework that shapes multimodal language models into proactive, real-time interactive agents capable of human-like environment perception and interaction. Extensive experiments show Proact-VL achieves superior response latency and quality while maintaining strong video understanding capabilities, demonstrating its practicality for real-time interactive applications.