VIKI-R: Coordinación de la Cooperación de Agentes Múltiples Embebidos mediante Aprendizaje por Refuerzo
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
June 10, 2025
Autores: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin
cs.AI
Resumen
Coordinar múltiples agentes corporizados en entornos dinámicos sigue siendo un desafío central en la inteligencia artificial, requiriendo tanto razonamiento basado en percepción como estrategias de cooperación escalables. Si bien trabajos recientes han aprovechado modelos de lenguaje de gran escala (LLMs) para la planificación multiagente, pocos han comenzado a explorar modelos de visión-lenguaje (VLMs) para el razonamiento visual. Sin embargo, estos enfoques basados en VLMs siguen siendo limitados en su soporte para diversos tipos de corporización. En este trabajo, presentamos VIKI-Bench, el primer benchmark jerárquico diseñado para la cooperación multiagente corporizada, que incluye tres niveles estructurados: activación de agentes, planificación de tareas y percepción de trayectorias. VIKI-Bench incorpora diversas corporizaciones de robots, observaciones visuales multi-vista y señales de supervisión estructuradas para evaluar el razonamiento basado en entradas visuales. Para demostrar la utilidad de VIKI-Bench, proponemos VIKI-R, un marco de dos etapas que ajusta un modelo de visión-lenguaje (VLM) preentrenado utilizando demostraciones anotadas con Chain-of-Thought, seguido de aprendizaje por refuerzo bajo señales de recompensa multi-nivel. Nuestros extensos experimentos muestran que VIKI-R supera significativamente a los métodos de referencia en todos los niveles de tareas. Además, demostramos que el aprendizaje por refuerzo permite la emergencia de patrones de cooperación composicional entre agentes heterogéneos. En conjunto, VIKI-Bench y VIKI-R ofrecen un banco de pruebas unificado y un método para avanzar en la cooperación multiagente basada en visión en sistemas de IA corporizada.
English
Coordinating multiple embodied agents in dynamic environments remains a core
challenge in artificial intelligence, requiring both perception-driven
reasoning and scalable cooperation strategies. While recent works have
leveraged large language models (LLMs) for multi-agent planning, a few have
begun to explore vision-language models (VLMs) for visual reasoning. However,
these VLM-based approaches remain limited in their support for diverse
embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical
benchmark tailored for embodied multi-agent cooperation, featuring three
structured levels: agent activation, task planning, and trajectory perception.
VIKI-Bench includes diverse robot embodiments, multi-view visual observations,
and structured supervision signals to evaluate reasoning grounded in visual
inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a
two-stage framework that fine-tunes a pretrained vision-language model (VLM)
using Chain-of-Thought annotated demonstrations, followed by reinforcement
learning under multi-level reward signals. Our extensive experiments show that
VIKI-R significantly outperforms baselines method across all task levels.
Furthermore, we show that reinforcement learning enables the emergence of
compositional cooperation patterns among heterogeneous agents. Together,
VIKI-Bench and VIKI-R offer a unified testbed and method for advancing
multi-agent, visual-driven cooperation in embodied AI systems.