Entkopplung von Kommunikation und Strategie: Robustes MARL unter Bandbreitenbeschränkungen

Zusammenfassung

Kommunikation ermöglicht Koordination im Multi-Agenten-Verstärkungslernen (MARL), aber viele reale Anwendungen, z. B. Such- und Rettungseinsätze mit Drohnenschwärmen, arbeiten unter starken Bandbreitenbeschränkungen. Viele Kommunikationsarchitekturen weisen immer noch einen gekoppelten Engpass auf, bei dem eine gemeinsame latente Repräsentation sowohl für die Politikausführung als auch für die agentenübergreifende Kommunikation verwendet wird. Folglich schränkt die Reduzierung der Nachrichtengröße direkt den latenten Raum der Politik ein, was oft zu einer erheblichen Leistungsverschlechterung führt. Wir adressieren dies mit zwei Beiträgen. Erstens führen wir β ein, ein normalisiertes agentenspezifisches Bandbreitenbudget, das Sparsität, Runden und Nachrichtendimension in eine einzige vergleichbare Einschränkung vereinheitlicht. Zweitens stellen wir SLIM vor, eine minimale Architektur, die den Kommunikationspfad von der latenten Repräsentation der Politik entkoppelt. Dadurch können wir den Effekt der Bandbreite vom Effekt der Politik-Kapazität isolieren und gleichzeitig von einer schrittweisen Kommunikation profitieren. Wir evaluieren unsere Methode an mehreren teilweise beobachtbaren MARL-Benchmarks, bei denen Kommunikation essentiell ist. Unser Ansatz erzielt Spitzenleistungen und zeigt Skalierbarkeit und Robustheit unter eingeschränkter Kommunikation, mit nur geringfügiger Verschlechterung, wenn die Bandbreite reduziert wird.

English

Communication enables coordination in multi-agent reinforcement learning (MARL), but many real-world applications, e.g., search-and-rescue with drone swarms, operate under severe bandwidth constraints. Many communication architectures still expose a coupled bottleneck in which a shared latent representation is used for both policy execution and inter-agent communication. Consequently, reducing message size directly limits the policy's latent space, often leading to significant performance degradation. We address this with two contributions. First, we introduce β, a normalised per-agent bandwidth budget that unifies sparsity, rounds, and message dimension into a single comparable constraint. Second, we provide SLIM, a minimal architecture that decouples the communication pathway from the policy's latent representation, allowing us to isolate the effect of bandwidth from the effect of policy capacity while benefiting from in-step communication. We evaluate our method on several partially-observable MARL benchmarks, where communication is essential. Our approach achieves state-of-the-art performance and exhibits scalability and robustness under limited communication, with only marginal degradation as bandwidth is reduced.