Opkomende risico's van sociale intelligentie in generatieve multi-agentensystemen

Samenvatting

Multi-agent systemen die zijn samengesteld uit grote generatieve modellen ontwikkelen zich snel van laboratoriumprototypes naar praktische implementaties, waarbij zij gezamenlijk plannen, onderhandelen en gedeelde middelen toewijzen om complexe taken op te lossen. Hoewel dergelijke systemen een ongekende schaalbaarheid en autonomie beloven, brengen hun collectieve interacties ook faalmechanismen met zich mee die niet kunnen worden herleid tot individuele agents. Het begrijpen van deze opkomende risico's is daarom cruciaal. Hier presenteren wij een baanbrekende studie naar dergelijke opkomende multi-agent risico's in workflows die competitie om gedeelde middelen (zoals rekenresources of marktaandeel), sequentiële samenwerking met overdracht (waarbij downstream agents alleen de output van voorgangers zien), collectieve besluitaggregatie en andere scenario's omvatten. In deze settings observeren wij dat dergelijke groepsgedragingen frequent optreden bij herhaalde experimenten en onder uiteenlopende interactiecondities, in plaats van als zeldzame of pathologische gevallen. Met name fenomenen zoals collusie-achtige coördinatie en conformisme ontstaan met aanzienlijke frequentie onder realistische resourcebeperkingen, communicatieprotocollen en roltoewijzingen, waarbij zij bekende pathologieën uit menselijke samenlevingen weerspiegelen ondanks het ontbreken van expliciete instructies. Bovendien kunnen deze risico's niet worden voorkomen door bestaande veiligheidsmaatregelen op agentniveau alleen. Deze bevindingen onthullen de schaduwzijde van intelligente multi-agent systemen: een sociaal-intelligentierisico waarbij agentcollectieven, zonder daartoe opdracht te krijgen, spontaan bekende faalpatronen uit menselijke samenlevingen reproduceren.

English

Multi-agent systems composed of large generative models are rapidly moving from laboratory prototypes to real-world deployments, where they jointly plan, negotiate, and allocate shared resources to solve complex tasks. While such systems promise unprecedented scalability and autonomy, their collective interaction also gives rise to failure modes that cannot be reduced to individual agents. Understanding these emergent risks is therefore critical. Here, we present a pioneer study of such emergent multi-agent risk in workflows that involve competition over shared resources (e.g., computing resources or market share), sequential handoff collaboration (where downstream agents see only predecessor outputs), collective decision aggregation, and others. Across these settings, we observe that such group behaviors arise frequently across repeated trials and a wide range of interaction conditions, rather than as rare or pathological cases. In particular, phenomena such as collusion-like coordination and conformity emerge with non-trivial frequency under realistic resource constraints, communication protocols, and role assignments, mirroring well-known pathologies in human societies despite no explicit instruction. Moreover, these risks cannot be prevented by existing agent-level safeguards alone. These findings expose the dark side of intelligent multi-agent systems: a social intelligence risk where agent collectives, despite no instruction to do so, spontaneously reproduce familiar failure patterns from human societies.

Opkomende risico's van sociale intelligentie in generatieve multi-agentensystemen

Emergent Social Intelligence Risks in Generative Multi-Agent Systems

Samenvatting

Support