Proact-VL: Проактивная языковая модель для видео в режиме реального времени для AI-компаньонов

Аннотация

Проактивные и интерактивные взаимодействия в реальном времени являются ключевыми для создания человекоподобных ИИ-компаньонов, однако они сталкиваются с тремя основными проблемами: (1) обеспечение низкой задержки вывода при непрерывных потоковых входных данных, (2) автономное определение момента для ответа и (3) контроль как качества, так и количества генерируемого контента для соблюдения ограничений реального времени. В данной работе мы реализуем концепцию ИИ-компаньонов через два игровых сценария — комментатора и гида, выбранных за их пригодность для автоматической оценки. Мы представляем Live Gaming Benchmark — масштабный набор данных с тремя репрезентативными сценариями: индивидуальное комментирование, совместное комментирование и взаимодействие с пользователем, а также Proact-VL — универсальную архитектуру, преобразующую мультимодальные языковые модели в проактивных агентов для работы в реальном времени, способных к человекообразному восприятию среды и взаимодействию. Многочисленные эксперименты демонстрируют, что Proact-VL достигает превосходной задержки ответа и качества генерации при сохранении высоких способностей к пониманию видео, подтверждая его практическую применимость для интерактивных систем реального времени.

English

Proactive and real-time interactive experiences are essential for human-like AI companions, yet face three key challenges: (1) achieving low-latency inference under continuous streaming inputs, (2) autonomously deciding when to respond, and (3) controlling both quality and quantity of generated content to meet real-time constraints. In this work, we instantiate AI companions through two gaming scenarios, commentator and guide, selected for their suitability for automatic evaluation. We introduce the Live Gaming Benchmark, a large-scale dataset with three representative scenarios: solo commentary, co-commentary, and user guidance, and present Proact-VL, a general framework that shapes multimodal language models into proactive, real-time interactive agents capable of human-like environment perception and interaction. Extensive experiments show Proact-VL achieves superior response latency and quality while maintaining strong video understanding capabilities, demonstrating its practicality for real-time interactive applications.

Proact-VL: Проактивная языковая модель для видео в режиме реального времени для AI-компаньонов

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Аннотация

Support