CONSCIENTIA: Können LLM-Agenten strategisches Denken erlernen? Emergente Täuschung und Vertrauen in einer Multi-Agenten-Simulation von New York City

Zusammenfassung

Da große Sprachmodelle (LLMs) zunehmend als autonome Agenten eingesetzt werden, ist das Verständnis dafür, wie strategisches Verhalten in Multi-Agenten-Umgebungen entsteht, zu einer wichtigen Alignment-Herausforderung geworden. Wir nehmen eine neutrale, empirische Haltung ein und konstruieren eine kontrollierte Umgebung, in der strategisches Verhalten direkt beobachtet und gemessen werden kann. Wir führen eine groß angelegte Multi-Agenten-Simulation in einem vereinfachten Modell von New York City ein, in der LLM-gesteuerte Agenten unter gegensätzlichen Anreizen interagieren. Blaue Agenten haben das Ziel, ihre Ziele effizient zu erreichen, während Rote Agenten versuchen, sie mit überzeugender Sprache auf werbeträchtige, schilderreiche Routen umzuleiten, um die Werbeeinnahmen zu maximieren. Verdeckte Identitäten machen die Navigation sozial vermittelt, was die Agenten zwingt, zu entscheiden, wann sie vertrauen oder täuschen sollen. Wir untersuchen Policy-Learning durch eine iterative Simulationspipeline, die die Agenten-Policies über wiederholte Interaktionsrunden hinweg unter Verwendung der Kahneman-Tversky-Optimierung (KTO) aktualisiert. Blaue Agenten werden optimiert, um die Werbebanner-Exposition zu verringern und gleichzeitig die Navigationseffizienz beizubehalten, während Rote Agenten sich anpassen, um verbleibende Schwachstellen auszunutzen. Über die Iterationen hinweg verbessert sich die beste Blaue Policy bei der Aufgabenbewältigung von 46,0 % auf 57,3 %, obwohl die Anfälligkeit mit 70,7 % weiterhin hoch bleibt. Spätere Policies zeigen eine stärkere selektive Kooperation bei gleichzeitiger Beibehaltung der Trajektorieneffizienz. Es bleibt jedoch ein grundsätzlicher Zielkonflikt zwischen Sicherheit und Hilfsbereitschaft bestehen: Policies, die besser gegen adversariale Steuerung resistent sind, maximieren nicht gleichzeitig die Aufgabenabschlussrate. Insgesamt zeigen unsere Ergebnisse, dass LLM-Agenten begrenzt strategisches Verhalten – einschließlich selektiven Vertrauens und Täuschung – zeigen können, während sie gleichzeitig hochgradig anfällig für adversariale Überredung bleiben.

English

As large language models (LLMs) are increasingly deployed as autonomous agents, understanding how strategic behavior emerges in multi-agent environments has become an important alignment challenge. We take a neutral empirical stance and construct a controlled environment in which strategic behavior can be directly observed and measured. We introduce a large-scale multi-agent simulation in a simplified model of New York City, where LLM-driven agents interact under opposing incentives. Blue agents aim to reach their destinations efficiently, while Red agents attempt to divert them toward billboard-heavy routes using persuasive language to maximize advertising revenue. Hidden identities make navigation socially mediated, forcing agents to decide when to trust or deceive. We study policy learning through an iterative simulation pipeline that updates agent policies across repeated interaction rounds using Kahneman-Tversky Optimization (KTO). Blue agents are optimized to reduce billboard exposure while preserving navigation efficiency, whereas Red agents adapt to exploit remaining weaknesses. Across iterations, the best Blue policy improves task success from 46.0% to 57.3%, although susceptibility remains high at 70.7%. Later policies exhibit stronger selective cooperation while preserving trajectory efficiency. However, a persistent safety-helpfulness trade-off remains: policies that better resist adversarial steering do not simultaneously maximize task completion. Overall, our results show that LLM agents can exhibit limited strategic behavior, including selective trust and deception, while remaining highly vulnerable to adversarial persuasion.

CONSCIENTIA: Können LLM-Agenten strategisches Denken erlernen? Emergente Täuschung und Vertrauen in einer Multi-Agenten-Simulation von New York City

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

Zusammenfassung

Support