CONSCIENTIA: Kunnen LLM-agenten leren strategiseren? Opkomende misleiding en vertrouwen in een multi-agent NYC-simulatie

Samenvatting

Naarmate grote taalmodellen (LLM's) steeds vaker als autonome agents worden ingezet, is het begrijpen van hoe strategisch gedrag ontstaat in multi-agentomgevingen een belangrijke uitdaging op het gebied van alignment geworden. Wij nemen een neutraal empirisch standpunt in en construeren een gecontroleerde omgeving waarin strategisch gedrag direct kan worden waargenomen en gemeten. Wij introduceren een grootschalige multi-agent simulatie in een vereenvoudigd model van New York City, waar door LLM's aangedreven agents met tegenstrijdige prikkels interacteren. Blauwe agents streven ernaar hun bestemming efficiënt te bereiken, terwijl Rode agents proberen hen via overtuigende taal naar routes met veel reclameborden te leiden om de advertentie-inkomsten te maximaliseren. Verborgen identiteiten maken navigatie sociaal gemodereerd, waardoor agents moeten beslissen wanneer ze moeten vertrouwen of misleiden. Wij bestuderen beleidsleren via een iteratief simulatiepijplijn dat agentbeleid bijwerkt over herhaalde interactieronden met behulp van Kahneman-Tversky Optimalisatie (KTO). Blauwe agents worden geoptimaliseerd om blootstelling aan reclameborden te verminderen terwijl de navigatie-efficiëntie behouden blijft, terwijl Rode agents zich aanpassen om resterende zwaktes te exploiteren. Over de iteraties heen verbetert het beste Blauwe beleid de taaksucces van 46,0% naar 57,3%, hoewel de vatbaarheid hoog blijft op 70,7%. Latere beleidsregels vertonen sterkere selectieve samenwerking terwijl de trajectefficiëntie behouden blijft. Er blijft echter een hardnekkige afweging tussen veiligheid en behulpzaamheid bestaan: beleidsregels die beter bestand zijn tegen tegensturend gedrag maximaliseren niet tegelijkertijd de taakvoltooiing. Over het geheel genomen tonen onze resultaten aan dat LLM-agents beperkt strategisch gedrag kunnen vertonen, inclusief selectief vertrouwen en misleiding, terwijl ze zeer kwetsbaar blijven voor vijandige overreding.

English

As large language models (LLMs) are increasingly deployed as autonomous agents, understanding how strategic behavior emerges in multi-agent environments has become an important alignment challenge. We take a neutral empirical stance and construct a controlled environment in which strategic behavior can be directly observed and measured. We introduce a large-scale multi-agent simulation in a simplified model of New York City, where LLM-driven agents interact under opposing incentives. Blue agents aim to reach their destinations efficiently, while Red agents attempt to divert them toward billboard-heavy routes using persuasive language to maximize advertising revenue. Hidden identities make navigation socially mediated, forcing agents to decide when to trust or deceive. We study policy learning through an iterative simulation pipeline that updates agent policies across repeated interaction rounds using Kahneman-Tversky Optimization (KTO). Blue agents are optimized to reduce billboard exposure while preserving navigation efficiency, whereas Red agents adapt to exploit remaining weaknesses. Across iterations, the best Blue policy improves task success from 46.0% to 57.3%, although susceptibility remains high at 70.7%. Later policies exhibit stronger selective cooperation while preserving trajectory efficiency. However, a persistent safety-helpfulness trade-off remains: policies that better resist adversarial steering do not simultaneously maximize task completion. Overall, our results show that LLM agents can exhibit limited strategic behavior, including selective trust and deception, while remaining highly vulnerable to adversarial persuasion.

CONSCIENTIA: Kunnen LLM-agenten leren strategiseren? Opkomende misleiding en vertrouwen in een multi-agent NYC-simulatie

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

Samenvatting

Support