Desacoplando la comunicación de la política: MARL robusto bajo restricciones de ancho de banda

Resumen

La comunicación permite la coordinación en el aprendizaje por refuerzo multiagente (MARL), pero muchas aplicaciones del mundo real, como la búsqueda y rescate con enjambres de drones, operan bajo severas restricciones de ancho de banda. Numerosas arquitecturas de comunicación aún presentan un cuello de botella acoplado, donde una representación latente compartida se emplea tanto para la ejecución de la política como para la comunicación entre agentes. En consecuencia, reducir el tamaño del mensaje limita directamente el espacio latente de la política, lo que a menudo provoca una degradación significativa del rendimiento. Abordamos este problema con dos contribuciones. Primero, introducimos β, un presupuesto de ancho de banda normalizado por agente que unifica la esparcidad, las rondas y la dimensión del mensaje en una única restricción comparable. Segundo, presentamos SLIM, una arquitectura mínima que desacopla la ruta de comunicación de la representación latente de la política, permitiéndonos aislar el efecto del ancho de banda del efecto de la capacidad de la política, al mismo tiempo que nos beneficiamos de la comunicación en cada paso. Evaluamos nuestro método en varios benchmarks de MARL parcialmente observables, donde la comunicación es esencial. Nuestro enfoque alcanza un rendimiento de vanguardia y exhibe escalabilidad y robustez bajo comunicación limitada, con una degradación solo marginal a medida que se reduce el ancho de banda.

English

Communication enables coordination in multi-agent reinforcement learning (MARL), but many real-world applications, e.g., search-and-rescue with drone swarms, operate under severe bandwidth constraints. Many communication architectures still expose a coupled bottleneck in which a shared latent representation is used for both policy execution and inter-agent communication. Consequently, reducing message size directly limits the policy's latent space, often leading to significant performance degradation. We address this with two contributions. First, we introduce β, a normalised per-agent bandwidth budget that unifies sparsity, rounds, and message dimension into a single comparable constraint. Second, we provide SLIM, a minimal architecture that decouples the communication pathway from the policy's latent representation, allowing us to isolate the effect of bandwidth from the effect of policy capacity while benefiting from in-step communication. We evaluate our method on several partially-observable MARL benchmarks, where communication is essential. Our approach achieves state-of-the-art performance and exhibits scalability and robustness under limited communication, with only marginal degradation as bandwidth is reduced.