ChatPaper.aiChatPaper

VIKI-R: 강화 학습을 통한 다중 에이전트 협업 조정

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

June 10, 2025
저자: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin
cs.AI

초록

동적 환경에서 다중 구체화 에이전트를 조율하는 것은 인공지능의 핵심 과제로, 인지 기반 추론과 확장 가능한 협력 전략을 모두 요구합니다. 최근 연구들은 대형 언어 모델(LLM)을 다중 에이전트 계획에 활용해 왔지만, 시각-언어 모델(VLM)을 시각적 추론에 적용하는 연구는 아직 초기 단계에 머물러 있습니다. 그러나 이러한 VLM 기반 접근법은 다양한 구체화 유형을 지원하는 데 있어 한계가 있습니다. 본 연구에서는 구체화된 다중 에이전트 협력을 위해 특화된 첫 번째 계층적 벤치마크인 VIKI-Bench를 소개합니다. 이 벤치마크는 에이전트 활성화, 작업 계획, 궤적 인식이라는 세 가지 구조화된 수준을 포함하며, 다양한 로봇 구체화, 다중 시점 시각 관측, 그리고 시각적 입력에 기반한 추론을 평가하기 위한 구조화된 감독 신호를 제공합니다. VIKI-Bench의 유용성을 입증하기 위해, 우리는 사전 학습된 시각-언어 모델(VLM)을 Chain-of-Thought 주석이 달린 데모로 미세 조정한 후, 다단계 보상 신호 하에서 강화 학습을 수행하는 두 단계 프레임워크인 VIKI-R을 제안합니다. 광범위한 실험을 통해 VIKI-R이 모든 작업 수준에서 기준 방법들을 크게 능가함을 보여줍니다. 또한, 강화 학습이 이질적 에이전트 간의 구성적 협력 패턴의 출현을 가능하게 함을 입증합니다. VIKI-Bench와 VIKI-R은 구체화된 AI 시스템에서의 다중 에이전트, 시각 기반 협력 발전을 위한 통합 테스트베드와 방법론을 제공합니다.
English
Coordinating multiple embodied agents in dynamic environments remains a core challenge in artificial intelligence, requiring both perception-driven reasoning and scalable cooperation strategies. While recent works have leveraged large language models (LLMs) for multi-agent planning, a few have begun to explore vision-language models (VLMs) for visual reasoning. However, these VLM-based approaches remain limited in their support for diverse embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical benchmark tailored for embodied multi-agent cooperation, featuring three structured levels: agent activation, task planning, and trajectory perception. VIKI-Bench includes diverse robot embodiments, multi-view visual observations, and structured supervision signals to evaluate reasoning grounded in visual inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a two-stage framework that fine-tunes a pretrained vision-language model (VLM) using Chain-of-Thought annotated demonstrations, followed by reinforcement learning under multi-level reward signals. Our extensive experiments show that VIKI-R significantly outperforms baselines method across all task levels. Furthermore, we show that reinforcement learning enables the emergence of compositional cooperation patterns among heterogeneous agents. Together, VIKI-Bench and VIKI-R offer a unified testbed and method for advancing multi-agent, visual-driven cooperation in embodied AI systems.
PDF322June 23, 2025