VIKI-R: Координация кооперации воплощенных мультиагентных систем с использованием обучения с подкреплением
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
June 10, 2025
Авторы: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin
cs.AI
Аннотация
Координация множества воплощенных агентов в динамических средах остается ключевой задачей в области искусственного интеллекта, требующей как восприятия, так и масштабируемых стратегий сотрудничества. Хотя в последних работах использовались крупные языковые модели (LLM) для планирования в многоагентных системах, лишь немногие начали исследовать визуально-языковые модели (VLM) для визуального рассуждения. Однако эти подходы на основе VLM остаются ограниченными в поддержке различных типов воплощения. В данной работе мы представляем VIKI-Bench — первый иерархический бенчмарк, разработанный для воплощенного многоагентного сотрудничества, включающий три структурированных уровня: активация агентов, планирование задач и восприятие траекторий. VIKI-Bench включает разнообразные воплощения роботов, многопользовательские визуальные наблюдения и структурированные сигналы контроля для оценки рассуждений, основанных на визуальных данных. Чтобы продемонстрировать полезность VIKI-Bench, мы предлагаем VIKI-R — двухэтапную структуру, которая дообучает предварительно обученную визуально-языковую модель (VLM) с использованием аннотированных демонстраций Chain-of-Thought, а затем применяет обучение с подкреплением с использованием многоуровневых сигналов вознаграждения. Наши обширные эксперименты показывают, что VIKI-R значительно превосходит базовые методы на всех уровнях задач. Кроме того, мы демонстрируем, что обучение с подкреплением способствует появлению композиционных паттернов сотрудничества среди разнородных агентов. Вместе VIKI-Bench и VIKI-R предлагают унифицированную платформу и метод для продвижения многоагентного визуально-ориентированного сотрудничества в воплощенных системах искусственного интеллекта.
English
Coordinating multiple embodied agents in dynamic environments remains a core
challenge in artificial intelligence, requiring both perception-driven
reasoning and scalable cooperation strategies. While recent works have
leveraged large language models (LLMs) for multi-agent planning, a few have
begun to explore vision-language models (VLMs) for visual reasoning. However,
these VLM-based approaches remain limited in their support for diverse
embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical
benchmark tailored for embodied multi-agent cooperation, featuring three
structured levels: agent activation, task planning, and trajectory perception.
VIKI-Bench includes diverse robot embodiments, multi-view visual observations,
and structured supervision signals to evaluate reasoning grounded in visual
inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a
two-stage framework that fine-tunes a pretrained vision-language model (VLM)
using Chain-of-Thought annotated demonstrations, followed by reinforcement
learning under multi-level reward signals. Our extensive experiments show that
VIKI-R significantly outperforms baselines method across all task levels.
Furthermore, we show that reinforcement learning enables the emergence of
compositional cooperation patterns among heterogeneous agents. Together,
VIKI-Bench and VIKI-R offer a unified testbed and method for advancing
multi-agent, visual-driven cooperation in embodied AI systems.