VIKI-R: Koordination verkörperter Multi-Agenten-Kooperation durch Verstärkungslernen

papers.abstract

Die Koordination mehrerer verkörperter Agenten in dynamischen Umgebungen bleibt eine zentrale Herausforderung in der künstlichen Intelligenz, die sowohl wahrnehmungsgesteuertes Denken als auch skalierbare Kooperationsstrategien erfordert. Während neuere Arbeiten große Sprachmodelle (LLMs) für die Multi-Agenten-Planung nutzen, haben einige begonnen, Vision-Sprach-Modelle (VLMs) für visuelles Denken zu erforschen. Diese VLM-basierten Ansätze sind jedoch noch begrenzt in ihrer Unterstützung für verschiedene Verkörperungstypen. In dieser Arbeit stellen wir VIKI-Bench vor, den ersten hierarchischen Benchmark, der speziell für die verkörperte Multi-Agenten-Kooperation entwickelt wurde und drei strukturierte Ebenen umfasst: Agentenaktivierung, Aufgabenplanung und Trajektorienwahrnehmung. VIKI-Bench beinhaltet diverse Roboter-Verkörperungen, Multi-Ansicht-Visualbeobachtungen und strukturierte Überwachungssignale, um das auf visuellen Eingaben basierende Denken zu bewerten. Um den Nutzen von VIKI-Bench zu demonstrieren, schlagen wir VIKI-R vor, ein zweistufiges Framework, das ein vortrainiertes Vision-Sprach-Modell (VLM) mit Chain-of-Thought-annotierten Demonstrationen feinabstimmt, gefolgt von bestärkendem Lernen unter mehrstufigen Belohnungssignalen. Unsere umfangreichen Experimente zeigen, dass VIKI-R die Baseline-Methoden auf allen Aufgabenebenen deutlich übertrifft. Darüber hinaus zeigen wir, dass bestärkendes Lernen die Entstehung von kompositionellen Kooperationsmustern unter heterogenen Agenten ermöglicht. Zusammen bieten VIKI-Bench und VIKI-R eine einheitliche Testumgebung und Methode zur Weiterentwicklung der Multi-Agenten-, visuell gesteuerten Kooperation in verkörperten KI-Systemen.

English

Coordinating multiple embodied agents in dynamic environments remains a core challenge in artificial intelligence, requiring both perception-driven reasoning and scalable cooperation strategies. While recent works have leveraged large language models (LLMs) for multi-agent planning, a few have begun to explore vision-language models (VLMs) for visual reasoning. However, these VLM-based approaches remain limited in their support for diverse embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical benchmark tailored for embodied multi-agent cooperation, featuring three structured levels: agent activation, task planning, and trajectory perception. VIKI-Bench includes diverse robot embodiments, multi-view visual observations, and structured supervision signals to evaluate reasoning grounded in visual inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a two-stage framework that fine-tunes a pretrained vision-language model (VLM) using Chain-of-Thought annotated demonstrations, followed by reinforcement learning under multi-level reward signals. Our extensive experiments show that VIKI-R significantly outperforms baselines method across all task levels. Furthermore, we show that reinforcement learning enables the emergence of compositional cooperation patterns among heterogeneous agents. Together, VIKI-Bench and VIKI-R offer a unified testbed and method for advancing multi-agent, visual-driven cooperation in embodied AI systems.

VIKI-R: Koordination verkörperter Multi-Agenten-Kooperation durch Verstärkungslernen

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

papers.abstract

Support