ChatPaper.aiChatPaper

VIKI-R: Coördinatie van belichaamde multi-agent samenwerking via reinforcement learning

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

June 10, 2025
Auteurs: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin
cs.AI

Samenvatting

Het coördineren van meerdere belichaamde agents in dynamische omgevingen blijft een kernuitdaging in kunstmatige intelligentie, waarvoor zowel perceptiegestuurd redeneren als schaalbare samenwerkingsstrategieën nodig zijn. Hoewel recente werken grote taalmodellen (LLMs) hebben ingezet voor multi-agent planning, zijn er slechts enkele begonnen met het verkennen van visie-taalmodellen (VLMs) voor visueel redeneren. Deze op VLM gebaseerde benaderingen blijven echter beperkt in hun ondersteuning voor diverse belichaamingsvormen. In dit werk introduceren we VIKI-Bench, de eerste hiërarchische benchmark specifiek ontworpen voor belichaamde multi-agent samenwerking, met drie gestructureerde niveaus: agentactivering, taakplanning en trajectperceptie. VIKI-Bench omvat diverse robotbelichamingen, multi-view visuele observaties en gestructureerde begeleidingssignalen om redeneren gebaseerd op visuele input te evalueren. Om het nut van VIKI-Bench aan te tonen, stellen we VIKI-R voor, een tweestaps raamwerk dat een voorgetraind visie-taalmodel (VLM) fine-tunt met behulp van Chain-of-Thought geannoteerde demonstraties, gevolgd door reinforcement learning onder multi-level beloningssignalen. Onze uitgebreide experimenten tonen aan dat VIKI-R de baseline-methoden significant overtreft op alle taakniveaus. Bovendien laten we zien dat reinforcement learning het ontstaan van compositionele samenwerkingspatronen tussen heterogene agents mogelijk maakt. Samen bieden VIKI-Bench en VIKI-R een uniforme testomgeving en methode voor het bevorderen van multi-agent, visueel-gestuurde samenwerking in belichaamde AI-systemen.
English
Coordinating multiple embodied agents in dynamic environments remains a core challenge in artificial intelligence, requiring both perception-driven reasoning and scalable cooperation strategies. While recent works have leveraged large language models (LLMs) for multi-agent planning, a few have begun to explore vision-language models (VLMs) for visual reasoning. However, these VLM-based approaches remain limited in their support for diverse embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical benchmark tailored for embodied multi-agent cooperation, featuring three structured levels: agent activation, task planning, and trajectory perception. VIKI-Bench includes diverse robot embodiments, multi-view visual observations, and structured supervision signals to evaluate reasoning grounded in visual inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a two-stage framework that fine-tunes a pretrained vision-language model (VLM) using Chain-of-Thought annotated demonstrations, followed by reinforcement learning under multi-level reward signals. Our extensive experiments show that VIKI-R significantly outperforms baselines method across all task levels. Furthermore, we show that reinforcement learning enables the emergence of compositional cooperation patterns among heterogeneous agents. Together, VIKI-Bench and VIKI-R offer a unified testbed and method for advancing multi-agent, visual-driven cooperation in embodied AI systems.
PDF342June 23, 2025