CONSCIENTIA: ¿Pueden los agentes de LLM aprender a estrategizar? Engaño emergente y confianza en una simulación multiagente de Nueva York

Resumen

A medida que los modelos de lenguaje grande (LLM) se despliegan cada vez más como agentes autónomos, comprender cómo surge el comportamiento estratégico en entornos multiagente se ha convertido en un desafío importante de alineación. Adoptamos una postura empírica neutral y construimos un entorno controlado en el que el comportamiento estratégico puede observarse y medirse directamente. Introducimos una simulación multiagente a gran escala en un modelo simplificado de la ciudad de Nueva York, donde agentes impulsados por LLM interactúan bajo incentivos opuestos. Los agentes Azules tienen como objetivo llegar a sus destinos de manera eficiente, mientras que los agentes Rojos intentan desviarlos hacia rutas con alta densidad de vallas publicitarias utilizando lenguaje persuasivo para maximizar los ingresos publicitarios. Las identidades ocultas hacen que la navegación esté socialmente mediada, forzando a los agentes a decidir cuándo confiar o engañar. Estudiamos el aprendizaje de políticas a través de una canalización de simulación iterativa que actualiza las políticas de los agentes a lo largo de rondas de interacción repetidas utilizando la Optimización de Kahneman-Tversky (KTO). Los agentes Azules se optimizan para reducir la exposición a vallas publicitarias mientras preservan la eficiencia de navegación, mientras que los agentes Rojos se adaptan para explotar las debilidades restantes. A lo largo de las iteraciones, la mejor política Azul mejora el éxito de la tarea del 46.0% al 57.3%, aunque la susceptibilidad sigue siendo alta en un 70.7%. Las políticas posteriores exhiben una cooperación selectiva más fuerte mientras preservan la eficiencia de la trayectoria. Sin embargo, persiste una compensación entre seguridad y utilidad: las políticas que resisten mejor la manipulación adversaria no maximizan simultáneamente la finalización de la tarea. En general, nuestros resultados muestran que los agentes LLM pueden exhibir un comportamiento estratégico limitado, incluyendo confianza y engaño selectivos, mientras permanecen altamente vulnerables a la persuasión adversaria.

English

As large language models (LLMs) are increasingly deployed as autonomous agents, understanding how strategic behavior emerges in multi-agent environments has become an important alignment challenge. We take a neutral empirical stance and construct a controlled environment in which strategic behavior can be directly observed and measured. We introduce a large-scale multi-agent simulation in a simplified model of New York City, where LLM-driven agents interact under opposing incentives. Blue agents aim to reach their destinations efficiently, while Red agents attempt to divert them toward billboard-heavy routes using persuasive language to maximize advertising revenue. Hidden identities make navigation socially mediated, forcing agents to decide when to trust or deceive. We study policy learning through an iterative simulation pipeline that updates agent policies across repeated interaction rounds using Kahneman-Tversky Optimization (KTO). Blue agents are optimized to reduce billboard exposure while preserving navigation efficiency, whereas Red agents adapt to exploit remaining weaknesses. Across iterations, the best Blue policy improves task success from 46.0% to 57.3%, although susceptibility remains high at 70.7%. Later policies exhibit stronger selective cooperation while preserving trajectory efficiency. However, a persistent safety-helpfulness trade-off remains: policies that better resist adversarial steering do not simultaneously maximize task completion. Overall, our results show that LLM agents can exhibit limited strategic behavior, including selective trust and deception, while remaining highly vulnerable to adversarial persuasion.

CONSCIENTIA: ¿Pueden los agentes de LLM aprender a estrategizar? Engaño emergente y confianza en una simulación multiagente de Nueva York

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

Resumen

Support