ChatPaper.aiChatPaper

VIKI-R: Coordinamento della Cooperazione Multi-Agente Embodied tramite Apprendimento per Rinforzo

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

June 10, 2025
Autori: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin
cs.AI

Abstract

Il coordinamento di più agenti incarnati in ambienti dinamici rimane una sfida fondamentale nell'intelligenza artificiale, richiedendo sia ragionamenti guidati dalla percezione che strategie di cooperazione scalabili. Sebbene lavori recenti abbiano sfruttato modelli linguistici di grandi dimensioni (LLM) per la pianificazione multi-agente, pochi hanno iniziato a esplorare modelli visione-linguaggio (VLM) per il ragionamento visivo. Tuttavia, questi approcci basati su VLM rimangono limitati nel supporto a diversi tipi di incarnazione. In questo lavoro, introduciamo VIKI-Bench, il primo benchmark gerarchico progettato per la cooperazione multi-agente incarnata, caratterizzato da tre livelli strutturati: attivazione degli agenti, pianificazione dei compiti e percezione delle traiettorie. VIKI-Bench include diverse incarnazioni robotiche, osservazioni visive multi-vista e segnali di supervisione strutturati per valutare il ragionamento basato su input visivi. Per dimostrare l'utilità di VIKI-Bench, proponiamo VIKI-R, un framework a due stadi che perfeziona un modello visione-linguaggio (VLM) pre-addestrato utilizzando dimostrazioni annotate con Chain-of-Thought, seguito da apprendimento per rinforzo sotto segnali di ricompensa multi-livello. I nostri esperimenti estesi mostrano che VIKI-R supera significativamente i metodi di base in tutti i livelli di compito. Inoltre, dimostriamo che l'apprendimento per rinforzo consente l'emergere di modelli di cooperazione composizionali tra agenti eterogenei. Insieme, VIKI-Bench e VIKI-R offrono un banco di prova unificato e un metodo per avanzare nella cooperazione multi-agente guidata dalla visione nei sistemi di intelligenza artificiale incarnata.
English
Coordinating multiple embodied agents in dynamic environments remains a core challenge in artificial intelligence, requiring both perception-driven reasoning and scalable cooperation strategies. While recent works have leveraged large language models (LLMs) for multi-agent planning, a few have begun to explore vision-language models (VLMs) for visual reasoning. However, these VLM-based approaches remain limited in their support for diverse embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical benchmark tailored for embodied multi-agent cooperation, featuring three structured levels: agent activation, task planning, and trajectory perception. VIKI-Bench includes diverse robot embodiments, multi-view visual observations, and structured supervision signals to evaluate reasoning grounded in visual inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a two-stage framework that fine-tunes a pretrained vision-language model (VLM) using Chain-of-Thought annotated demonstrations, followed by reinforcement learning under multi-level reward signals. Our extensive experiments show that VIKI-R significantly outperforms baselines method across all task levels. Furthermore, we show that reinforcement learning enables the emergence of compositional cooperation patterns among heterogeneous agents. Together, VIKI-Bench and VIKI-R offer a unified testbed and method for advancing multi-agent, visual-driven cooperation in embodied AI systems.
PDF332June 23, 2025