VIKI-R : Coordination de la coopération multi-agent incarnée par apprentissage par renforcement
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
June 10, 2025
Auteurs: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin
cs.AI
Résumé
La coordination de multiples agents incarnés dans des environnements dynamiques demeure un défi central en intelligence artificielle, nécessitant à la fois un raisonnement basé sur la perception et des stratégies de coopération évolutives. Bien que des travaux récents aient exploité des modèles de langage de grande taille (LLMs) pour la planification multi-agents, peu ont commencé à explorer les modèles vision-langage (VLMs) pour le raisonnement visuel. Cependant, ces approches basées sur les VLMs restent limitées dans leur prise en charge de divers types d'incarnation. Dans ce travail, nous introduisons VIKI-Bench, le premier benchmark hiérarchique conçu pour la coopération multi-agents incarnés, comportant trois niveaux structurés : activation des agents, planification des tâches et perception des trajectoires. VIKI-Bench inclut diverses incarnations de robots, des observations visuelles multi-vues et des signaux de supervision structurés pour évaluer le raisonnement ancré dans les entrées visuelles. Pour démontrer l'utilité de VIKI-Bench, nous proposons VIKI-R, un framework en deux étapes qui affine un modèle vision-langage pré-entraîné (VLM) en utilisant des démonstrations annotées par Chain-of-Thought, suivi d'un apprentissage par renforcement sous des signaux de récompense multi-niveaux. Nos expériences approfondies montrent que VIKI-R surpasse significativement les méthodes de référence à tous les niveaux de tâches. De plus, nous montrons que l'apprentissage par renforcement permet l'émergence de modèles de coopération compositionnels parmi des agents hétérogènes. Ensemble, VIKI-Bench et VIKI-R offrent un banc d'essai unifié et une méthode pour faire progresser la coopération multi-agents pilotée par la vision dans les systèmes d'IA incarnés.
English
Coordinating multiple embodied agents in dynamic environments remains a core
challenge in artificial intelligence, requiring both perception-driven
reasoning and scalable cooperation strategies. While recent works have
leveraged large language models (LLMs) for multi-agent planning, a few have
begun to explore vision-language models (VLMs) for visual reasoning. However,
these VLM-based approaches remain limited in their support for diverse
embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical
benchmark tailored for embodied multi-agent cooperation, featuring three
structured levels: agent activation, task planning, and trajectory perception.
VIKI-Bench includes diverse robot embodiments, multi-view visual observations,
and structured supervision signals to evaluate reasoning grounded in visual
inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a
two-stage framework that fine-tunes a pretrained vision-language model (VLM)
using Chain-of-Thought annotated demonstrations, followed by reinforcement
learning under multi-level reward signals. Our extensive experiments show that
VIKI-R significantly outperforms baselines method across all task levels.
Furthermore, we show that reinforcement learning enables the emergence of
compositional cooperation patterns among heterogeneous agents. Together,
VIKI-Bench and VIKI-R offer a unified testbed and method for advancing
multi-agent, visual-driven cooperation in embodied AI systems.