CONSCIENTIA: Agentes de LLM Podem Aprender a Estrategizar? Engano Emergente e Confiança numa Simulação Multiagente de NYC

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) são cada vez mais implantados como agentes autónomos, compreender como o comportamento estratégico emerge em ambientes multiagente tornou-se um desafio importante no alinhamento. Adotamos uma postura empírica neutra e construímos um ambiente controlado no qual o comportamento estratégico pode ser observado e medido diretamente. Introduzimos uma simulação em larga escala com múltiplos agentes num modelo simplificado da cidade de Nova Iorque, onde agentes orientados por LLMs interagem sob incentivos opostos. Os agentes Azuis visam alcançar os seus destinos de forma eficiente, enquanto os agentes Vermelhos tentam desviá-los para rotas com alta densidade de *billboards*, usando linguagem persuasiva para maximizar a receita publicitária. Identidades ocultas tornam a navegação socialmente mediada, forçando os agentes a decidir quando confiar ou enganar. Estudamos a aprendizagem de políticas através de um *pipeline* de simulação iterativa que atualiza as políticas dos agentes ao longo de rondas repetidas de interação usando a Otimização de Kahneman-Tversky (KTO). Os agentes Azuis são otimizados para reduzir a exposição a *billboards*, preservando a eficiência de navegação, enquanto os agentes Vermelhos se adaptam para explorar as fraquezas remanescentes. Ao longo das iterações, a melhor política Azul melhora a taxa de sucesso da tarefa de 46,0% para 57,3%, embora a suscetibilidade permaneça elevada em 70,7%. Políticas posteriores exibem uma cooperação seletiva mais forte, preservando a eficiência da trajetória. No entanto, persiste um *trade-off* entre segurança e utilidade: políticas que resistem melhor à manipulação adversária não maximizam simultaneamente a conclusão da tarefa. Globalmente, os nossos resultados mostram que os agentes baseados em LLMs podem exibir um comportamento estratégico limitado, incluindo confiança e deceção seletivas, permanecendo altamente vulneráveis à persuasão adversária.

English

As large language models (LLMs) are increasingly deployed as autonomous agents, understanding how strategic behavior emerges in multi-agent environments has become an important alignment challenge. We take a neutral empirical stance and construct a controlled environment in which strategic behavior can be directly observed and measured. We introduce a large-scale multi-agent simulation in a simplified model of New York City, where LLM-driven agents interact under opposing incentives. Blue agents aim to reach their destinations efficiently, while Red agents attempt to divert them toward billboard-heavy routes using persuasive language to maximize advertising revenue. Hidden identities make navigation socially mediated, forcing agents to decide when to trust or deceive. We study policy learning through an iterative simulation pipeline that updates agent policies across repeated interaction rounds using Kahneman-Tversky Optimization (KTO). Blue agents are optimized to reduce billboard exposure while preserving navigation efficiency, whereas Red agents adapt to exploit remaining weaknesses. Across iterations, the best Blue policy improves task success from 46.0% to 57.3%, although susceptibility remains high at 70.7%. Later policies exhibit stronger selective cooperation while preserving trajectory efficiency. However, a persistent safety-helpfulness trade-off remains: policies that better resist adversarial steering do not simultaneously maximize task completion. Overall, our results show that LLM agents can exhibit limited strategic behavior, including selective trust and deception, while remaining highly vulnerable to adversarial persuasion.

CONSCIENTIA: Agentes de LLM Podem Aprender a Estrategizar? Engano Emergente e Confiança numa Simulação Multiagente de NYC

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

Resumo

Support