Desacoplamento entre Comunicação e Política: MARL Robusto sob Restrições de Largura de Banda

Resumo

A comunicação possibilita a coordenação na aprendizagem por reforço multiagente (MARL), mas muitas aplicações do mundo real, como operações de busca e resgate com enxames de drones, operam sob severas restrições de largura de banda. Muitas arquiteturas de comunicação ainda apresentam um gargalo acoplado, no qual uma representação latente compartilhada é utilizada tanto para a execução da política quanto para a comunicação entre agentes. Consequentemente, reduzir o tamanho da mensagem limita diretamente o espaço latente da política, frequentemente levando a uma degradação significativa do desempenho. Abordamos esse problema com duas contribuições. Primeiro, introduzimos β, um orçamento normalizado de largura de banda por agente que unifica esparsidade, rodadas e dimensão da mensagem em uma única restrição comparável. Segundo, fornecemos SLIM, uma arquitetura mínima que desacopla o caminho de comunicação da representação latente da política, permitindo isolar o efeito da largura de banda do efeito da capacidade da política, ao mesmo tempo que nos beneficiamos da comunicação em etapas. Avaliamos nosso método em vários benchmarks de MARL parcialmente observáveis, onde a comunicação é essencial. Nossa abordagem atinge desempenho de ponta e exige escalabilidade e robustez sob comunicação limitada, com apenas degradação marginal à medida que a largura de banda é reduzida.

English

Communication enables coordination in multi-agent reinforcement learning (MARL), but many real-world applications, e.g., search-and-rescue with drone swarms, operate under severe bandwidth constraints. Many communication architectures still expose a coupled bottleneck in which a shared latent representation is used for both policy execution and inter-agent communication. Consequently, reducing message size directly limits the policy's latent space, often leading to significant performance degradation. We address this with two contributions. First, we introduce β, a normalised per-agent bandwidth budget that unifies sparsity, rounds, and message dimension into a single comparable constraint. Second, we provide SLIM, a minimal architecture that decouples the communication pathway from the policy's latent representation, allowing us to isolate the effect of bandwidth from the effect of policy capacity while benefiting from in-step communication. We evaluate our method on several partially-observable MARL benchmarks, where communication is essential. Our approach achieves state-of-the-art performance and exhibits scalability and robustness under limited communication, with only marginal degradation as bandwidth is reduced.