Découplage de la communication et de la politique : MARL robuste sous contraintes de bande passante

Résumé

La communication permet la coordination dans l'apprentissage par renforcement multi-agent (MARL), mais de nombreuses applications réelles, comme les opérations de recherche et de sauvetage avec des essaims de drones, fonctionnent sous des contraintes sévères de bande passante. De nombreuses architectures de communication présentent encore un goulot d'étranglement couplé dans lequel une représentation latente partagée est utilisée à la fois pour l'exécution de la politique et la communication inter-agents. Par conséquent, réduire la taille des messages limite directement l'espace latent de la politique, ce qui entraîne souvent une dégradation significative des performances. Nous abordons ce problème avec deux contributions. Premièrement, nous introduisons β, un budget de bande passante normalisé par agent qui unifie la sparsité, les cycles et la dimension des messages en une seule contrainte comparable. Deuxièmement, nous proposons SLIM, une architecture minimale qui découple la voie de communication de la représentation latente de la politique, permettant ainsi d'isoler l'effet de la bande passante de l'effet de la capacité de la politique tout en bénéficiant d'une communication en phase. Nous évaluons notre méthode sur plusieurs bancs d'essai MARL partiellement observables où la communication est essentielle. Notre approche atteint des performances de pointe et fait preuve de passage à l'échelle et de robustesse sous une communication limitée, avec seulement une dégradation marginale à mesure que la bande passante est réduite.

English

Communication enables coordination in multi-agent reinforcement learning (MARL), but many real-world applications, e.g., search-and-rescue with drone swarms, operate under severe bandwidth constraints. Many communication architectures still expose a coupled bottleneck in which a shared latent representation is used for both policy execution and inter-agent communication. Consequently, reducing message size directly limits the policy's latent space, often leading to significant performance degradation. We address this with two contributions. First, we introduce β, a normalised per-agent bandwidth budget that unifies sparsity, rounds, and message dimension into a single comparable constraint. Second, we provide SLIM, a minimal architecture that decouples the communication pathway from the policy's latent representation, allowing us to isolate the effect of bandwidth from the effect of policy capacity while benefiting from in-step communication. We evaluate our method on several partially-observable MARL benchmarks, where communication is essential. Our approach achieves state-of-the-art performance and exhibits scalability and robustness under limited communication, with only marginal degradation as bandwidth is reduced.