VIKI-R: Koordination verkörperter Multi-Agenten-Kooperation durch Verstärkungslernen
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning
June 10, 2025
Autoren: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin
cs.AI
Zusammenfassung
Die Koordination mehrerer verkörperter Agenten in dynamischen Umgebungen bleibt eine zentrale Herausforderung in der künstlichen Intelligenz, die sowohl wahrnehmungsgesteuertes Denken als auch skalierbare Kooperationsstrategien erfordert. Während neuere Arbeiten große Sprachmodelle (LLMs) für die Multi-Agenten-Planung nutzen, haben einige begonnen, Vision-Sprach-Modelle (VLMs) für visuelles Denken zu erforschen. Diese VLM-basierten Ansätze sind jedoch noch begrenzt in ihrer Unterstützung für verschiedene Verkörperungstypen. In dieser Arbeit stellen wir VIKI-Bench vor, den ersten hierarchischen Benchmark, der speziell für die verkörperte Multi-Agenten-Kooperation entwickelt wurde und drei strukturierte Ebenen umfasst: Agentenaktivierung, Aufgabenplanung und Trajektorienwahrnehmung. VIKI-Bench beinhaltet diverse Roboter-Verkörperungen, Multi-Ansicht-Visualbeobachtungen und strukturierte Überwachungssignale, um das auf visuellen Eingaben basierende Denken zu bewerten. Um den Nutzen von VIKI-Bench zu demonstrieren, schlagen wir VIKI-R vor, ein zweistufiges Framework, das ein vortrainiertes Vision-Sprach-Modell (VLM) mit Chain-of-Thought-annotierten Demonstrationen feinabstimmt, gefolgt von bestärkendem Lernen unter mehrstufigen Belohnungssignalen. Unsere umfangreichen Experimente zeigen, dass VIKI-R die Baseline-Methoden auf allen Aufgabenebenen deutlich übertrifft. Darüber hinaus zeigen wir, dass bestärkendes Lernen die Entstehung von kompositionellen Kooperationsmustern unter heterogenen Agenten ermöglicht. Zusammen bieten VIKI-Bench und VIKI-R eine einheitliche Testumgebung und Methode zur Weiterentwicklung der Multi-Agenten-, visuell gesteuerten Kooperation in verkörperten KI-Systemen.
English
Coordinating multiple embodied agents in dynamic environments remains a core
challenge in artificial intelligence, requiring both perception-driven
reasoning and scalable cooperation strategies. While recent works have
leveraged large language models (LLMs) for multi-agent planning, a few have
begun to explore vision-language models (VLMs) for visual reasoning. However,
these VLM-based approaches remain limited in their support for diverse
embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical
benchmark tailored for embodied multi-agent cooperation, featuring three
structured levels: agent activation, task planning, and trajectory perception.
VIKI-Bench includes diverse robot embodiments, multi-view visual observations,
and structured supervision signals to evaluate reasoning grounded in visual
inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a
two-stage framework that fine-tunes a pretrained vision-language model (VLM)
using Chain-of-Thought annotated demonstrations, followed by reinforcement
learning under multi-level reward signals. Our extensive experiments show that
VIKI-R significantly outperforms baselines method across all task levels.
Furthermore, we show that reinforcement learning enables the emergence of
compositional cooperation patterns among heterogeneous agents. Together,
VIKI-Bench and VIKI-R offer a unified testbed and method for advancing
multi-agent, visual-driven cooperation in embodied AI systems.