Cooperação multiagente através de inferência contextual de co-jogadores

Resumo

A obtenção de cooperação entre agentes interessados em si próprios continua a ser um desafio fundamental no aprendizado por reforço multiagente. Trabalhos recentes demonstraram que a cooperação mútua pode ser induzida entre agentes "conscientes da aprendizagem" que consideram e moldam a dinâmica de aprendizagem dos seus co-participantes. No entanto, as abordagens existentes geralmente dependem de pressupostos pré-definidos, muitas vezes inconsistentes, sobre as regras de aprendizagem dos co-participantes ou impõem uma separação estrita entre "aprendizes ingénuos", que atualizam em escalas de tempo rápidas, e "meta-aprendizes" que observam essas atualizações. Aqui, demonstramos que as capacidades de aprendizagem em contexto dos modelos de sequência permitem a consciência da aprendizagem do co-participante sem exigir pressupostos pré-definidos ou uma separação explícita de escalas de tempo. Mostramos que o treino de agentes de modelo de sequência contra uma distribuição diversificada de co-participantes induz naturalmente estratégias de melhor resposta em contexto, funcionando efetivamente como algoritmos de aprendizagem na escala de tempo rápida intra-episódio. Verificamos que o mecanismo cooperativo identificado em trabalhos anteriores — no qual a vulnerabilidade à extorsão impulsiona a moldagem mútua — emerge naturalmente neste contexto: a adaptação em contexto torna os agentes vulneráveis à extorsão, e a pressão mútua resultante para moldar a dinâmica de aprendizagem em contexto do oponente resolve-se na aprendizagem de comportamentos cooperativos. Os nossos resultados sugerem que o aprendizado por reforço descentralizado padrão em modelos de sequência, combinado com a diversidade de co-participantes, oferece um caminho escalável para a aprendizagem de comportamentos cooperativos.

English

Achieving cooperation among self-interested agents remains a fundamental challenge in multi-agent reinforcement learning. Recent work showed that mutual cooperation can be induced between "learning-aware" agents that account for and shape the learning dynamics of their co-players. However, existing approaches typically rely on hardcoded, often inconsistent, assumptions about co-player learning rules or enforce a strict separation between "naive learners" updating on fast timescales and "meta-learners" observing these updates. Here, we demonstrate that the in-context learning capabilities of sequence models allow for co-player learning awareness without requiring hardcoded assumptions or explicit timescale separation. We show that training sequence model agents against a diverse distribution of co-players naturally induces in-context best-response strategies, effectively functioning as learning algorithms on the fast intra-episode timescale. We find that the cooperative mechanism identified in prior work-where vulnerability to extortion drives mutual shaping-emerges naturally in this setting: in-context adaptation renders agents vulnerable to extortion, and the resulting mutual pressure to shape the opponent's in-context learning dynamics resolves into the learning of cooperative behavior. Our results suggest that standard decentralized reinforcement learning on sequence models combined with co-player diversity provides a scalable path to learning cooperative behaviors.

Cooperação multiagente através de inferência contextual de co-jogadores

Multi-agent cooperation through in-context co-player inference

Resumo

Support