CONSCIENTIA: Gli Agenti LLM Possono Imparare a Strategizzare? Inganno Emergente e Fiducia in una Simulazione Multi-Agente di New York

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati come agenti autonomi, comprendere come il comportamento strategico emerga in ambienti multi-agente è diventata una sfida importante nell'allineamento. Assumiamo una posizione empirica neutra e costruiamo un ambiente controllato in cui il comportamento strategico può essere osservato e misurato direttamente. Introduciamo una simulazione su larga scala in un modello semplificato della città di New York, dove agenti guidati da LLM interagiscono sotto incentivi contrapposti. Gli agenti Blu mirano a raggiungere le proprie destinazioni in modo efficiente, mentre gli agenti Rossi tentano di deviarli verso percorsi ricchi di cartelloni pubblicitari, utilizzando un linguaggio persuasivo per massimizzare i ricavi pubblicitari. Le identità nascoste rendono la navigazione socialmente mediata, costringendo gli agenti a decidere quando fidarsi o ingannare. Studiamo l'apprendimento delle politiche attraverso una pipeline di simulazione iterativa che aggiorna le politiche degli agenti attraverso ripetuti round di interazione utilizzando l'Ottimizzazione di Kahneman-Tversky (KTO). Gli agenti Blu sono ottimizzati per ridurre l'esposizione ai cartelloni preservando l'efficienza della navigazione, mentre gli agenti Rossi si adattano per sfruttare le debolezze residue. Attraverso le iterazioni, la migliore politica Blu migliora il successo del compito dal 46,0% al 57,3%, sebbene la suscettibilità rimanga alta al 70,7%. Le politiche successive mostrano una cooperazione selettiva più forte preservando l'efficienza della traiettoria. Tuttavia, rimane un persistente compromesso tra sicurezza e utilità: le politiche che resistono meglio alla manipolazione avversaria non massimizzano simultaneamente il completamento del compito. Nel complesso, i nostri risultati mostrano che gli agenti LLM possono esibire un comportamento strategico limitato, inclusi fiducia selettiva e inganno, pur rimanendo altamente vulnerabili alla persuasione avversaria.

English

As large language models (LLMs) are increasingly deployed as autonomous agents, understanding how strategic behavior emerges in multi-agent environments has become an important alignment challenge. We take a neutral empirical stance and construct a controlled environment in which strategic behavior can be directly observed and measured. We introduce a large-scale multi-agent simulation in a simplified model of New York City, where LLM-driven agents interact under opposing incentives. Blue agents aim to reach their destinations efficiently, while Red agents attempt to divert them toward billboard-heavy routes using persuasive language to maximize advertising revenue. Hidden identities make navigation socially mediated, forcing agents to decide when to trust or deceive. We study policy learning through an iterative simulation pipeline that updates agent policies across repeated interaction rounds using Kahneman-Tversky Optimization (KTO). Blue agents are optimized to reduce billboard exposure while preserving navigation efficiency, whereas Red agents adapt to exploit remaining weaknesses. Across iterations, the best Blue policy improves task success from 46.0% to 57.3%, although susceptibility remains high at 70.7%. Later policies exhibit stronger selective cooperation while preserving trajectory efficiency. However, a persistent safety-helpfulness trade-off remains: policies that better resist adversarial steering do not simultaneously maximize task completion. Overall, our results show that LLM agents can exhibit limited strategic behavior, including selective trust and deception, while remaining highly vulnerable to adversarial persuasion.

CONSCIENTIA: Gli Agenti LLM Possono Imparare a Strategizzare? Inganno Emergente e Fiducia in una Simulazione Multi-Agente di New York

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

Abstract

Support