CONSCIENTIA : Les agents de LLM peuvent-ils apprendre à élaborer des stratégies ? Tromperie émergente et confiance dans une simulation multi-agents de New York

Résumé

Alors que les modèles de langage de grande taille (LLM) sont de plus en plus déployés en tant qu'agents autonomes, la compréhension de l'émergence des comportements stratégiques dans des environnements multi-agents est devenue un enjeu important d'alignement. Nous adoptons une position empirique neutre et construisons un environnement contrôlé où le comportement stratégique peut être directement observé et mesuré. Nous introduisons une simulation multi-agents à grande échelle dans un modèle simplifié de la ville de New York, où des agents pilotés par des LLM interagissent sous l'effet d'incitations opposées. Les agents Bleus visent à atteindre leur destination de manière efficace, tandis que les agents Rouges tentent de les détourner vers des routes à forte densité de panneaux publicitaires en utilisant un langage persuasif pour maximiser les revenus publicitaires. Le masquage des identités rend la navigation socialement médiée, forçant les agents à décider quand faire confiance ou tromper. Nous étudions l'apprentissage de politiques via un pipeline de simulation itératif qui met à jour les politiques des agents sur plusieurs rounds d'interaction en utilisant l'Optimisation de Kahneman-Tversky (KTO). Les agents Bleus sont optimisés pour réduire l'exposition aux publicités tout en préservant l'efficacité de la navigation, tandis que les agents Rouges s'adaptent pour exploiter les faiblesses persistantes. Au fil des itérations, la meilleure politique Bleu améliore le taux de réussite de la tâche de 46,0 % à 57,3 %, bien que la sensibilité aux manipulations reste élevée à 70,7 %. Les politiques ultérieures présentent une coopération sélective plus marquée tout en préservant l'efficacité des trajectoires. Cependant, un compromis persistant entre sécurité et utilité subsiste : les politiques qui résistent mieux à la manipulation adverse ne maximisent pas simultanément l'accomplissement de la tâche. Globalement, nos résultats montrent que les agents LLM peuvent manifester un comportement stratégique limité, incluant la confiance et la tromperie sélectives, tout en restant très vulnérables à la persuasion antagoniste.

English

As large language models (LLMs) are increasingly deployed as autonomous agents, understanding how strategic behavior emerges in multi-agent environments has become an important alignment challenge. We take a neutral empirical stance and construct a controlled environment in which strategic behavior can be directly observed and measured. We introduce a large-scale multi-agent simulation in a simplified model of New York City, where LLM-driven agents interact under opposing incentives. Blue agents aim to reach their destinations efficiently, while Red agents attempt to divert them toward billboard-heavy routes using persuasive language to maximize advertising revenue. Hidden identities make navigation socially mediated, forcing agents to decide when to trust or deceive. We study policy learning through an iterative simulation pipeline that updates agent policies across repeated interaction rounds using Kahneman-Tversky Optimization (KTO). Blue agents are optimized to reduce billboard exposure while preserving navigation efficiency, whereas Red agents adapt to exploit remaining weaknesses. Across iterations, the best Blue policy improves task success from 46.0% to 57.3%, although susceptibility remains high at 70.7%. Later policies exhibit stronger selective cooperation while preserving trajectory efficiency. However, a persistent safety-helpfulness trade-off remains: policies that better resist adversarial steering do not simultaneously maximize task completion. Overall, our results show that LLM agents can exhibit limited strategic behavior, including selective trust and deception, while remaining highly vulnerable to adversarial persuasion.

CONSCIENTIA : Les agents de LLM peuvent-ils apprendre à élaborer des stratégies ? Tromperie émergente et confiance dans une simulation multi-agents de New York

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

Résumé

Support