ChatPaper.aiChatPaper

VIKI-R: Coordenação da Cooperação de Multiagentes Embarcados por meio de Aprendizado por Reforço

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

June 10, 2025
Autores: Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin
cs.AI

Resumo

Coordenar múltiplos agentes corporificados em ambientes dinâmicos continua sendo um desafio central na inteligência artificial, exigindo tanto raciocínio baseado em percepção quanto estratégias de cooperação escaláveis. Embora trabalhos recentes tenham aproveitado grandes modelos de linguagem (LLMs) para planejamento multiagente, poucos começaram a explorar modelos visão-linguagem (VLMs) para raciocínio visual. No entanto, essas abordagens baseadas em VLMs ainda são limitadas em seu suporte a diversos tipos de corporificação. Neste trabalho, apresentamos o VIKI-Bench, o primeiro benchmark hierárquico projetado para cooperação multiagente corporificada, apresentando três níveis estruturados: ativação de agentes, planejamento de tarefas e percepção de trajetória. O VIKI-Bench inclui diversas corporificações de robôs, observações visuais multiângulo e sinais de supervisão estruturados para avaliar o raciocínio fundamentado em entradas visuais. Para demonstrar a utilidade do VIKI-Bench, propomos o VIKI-R, um framework de dois estágios que ajusta um modelo visão-linguagem (VLM) pré-treinado usando demonstrações anotadas com Chain-of-Thought, seguido por aprendizado por reforço sob sinais de recompensa multi-níveis. Nossos experimentos extensivos mostram que o VIKI-R supera significativamente os métodos de linha de base em todos os níveis de tarefa. Além disso, mostramos que o aprendizado por reforço possibilita o surgimento de padrões de cooperação composicionais entre agentes heterogêneos. Juntos, o VIKI-Bench e o VIKI-R oferecem um ambiente de teste unificado e um método para avançar a cooperação multiagente e visualmente orientada em sistemas de IA corporificada.
English
Coordinating multiple embodied agents in dynamic environments remains a core challenge in artificial intelligence, requiring both perception-driven reasoning and scalable cooperation strategies. While recent works have leveraged large language models (LLMs) for multi-agent planning, a few have begun to explore vision-language models (VLMs) for visual reasoning. However, these VLM-based approaches remain limited in their support for diverse embodiment types. In this work, we introduce VIKI-Bench, the first hierarchical benchmark tailored for embodied multi-agent cooperation, featuring three structured levels: agent activation, task planning, and trajectory perception. VIKI-Bench includes diverse robot embodiments, multi-view visual observations, and structured supervision signals to evaluate reasoning grounded in visual inputs. To demonstrate the utility of VIKI-Bench, we propose VIKI-R, a two-stage framework that fine-tunes a pretrained vision-language model (VLM) using Chain-of-Thought annotated demonstrations, followed by reinforcement learning under multi-level reward signals. Our extensive experiments show that VIKI-R significantly outperforms baselines method across all task levels. Furthermore, we show that reinforcement learning enables the emergence of compositional cooperation patterns among heterogeneous agents. Together, VIKI-Bench and VIKI-R offer a unified testbed and method for advancing multi-agent, visual-driven cooperation in embodied AI systems.
PDF352June 23, 2025