СОЗНАТЕЛЬНОСТЬ: Могут ли агенты на основе больших языковых моделей научиться стратегировать? Возникающий обман и доверие в многопользовательской симуляции Нью-Йорка

Аннотация

По мере того как большие языковые модели (БЯМ) всё чаще развертываются в качестве автономных агентов, понимание того, как стратегическое поведение возникает в многоагентных средах, стало важной проблемой согласования. Мы занимаем нейтральную эмпирическую позицию и создаем контролируемую среду, в которой стратегическое поведение можно непосредственно наблюдать и измерять. Мы представляем крупномасштабное многоагентное моделирование в упрощенной модели Нью-Йорка, где агенты на основе БЯМ взаимодействуют в условиях противоположных стимулов. Синие агенты стремятся достичь своих пунктов назначения эффективно, в то время как Красные агенты пытаются перенаправить их на маршруты с большим количеством рекламных щитов, используя убедительный язык для максимизации рекламного дохода. Скрытые идентичности делают навигацию социально опосредованной, вынуждая агентов решать, когда доверять, а когда обманывать. Мы изучаем обучение политикам через итеративный конвейер моделирования, который обновляет политики агентов в ходе повторяющихся раундов взаимодействия с использованием оптимизации Канемана-Тверски (KTO). Синие агенты оптимизированы для сокращения воздействия рекламных щитов при сохранении эффективности навигации, тогда как Красные агенты адаптируются, чтобы эксплуатировать оставшиеся слабости. В течение итераций лучшая политика Синих агентов улучшает успешность выполнения задачи с 46,0% до 57,3%, хотя восприимчивость остается высокой на уровне 70,7%. Более поздние политики демонстрируют более сильное избирательное сотрудничество при сохранении эффективности траектории. Однако сохраняется компромисс между безопасностью и полезностью: политики, которые лучше противостоят враждебному манипулированию, не одновременно максимизируют выполнение задачи. В целом наши результаты показывают, что агенты на основе БЯМ могут демонстрировать ограниченное стратегическое поведение, включая избирательное доверие и обман, оставаясь при этом крайне уязвимыми для враждебного убеждения.

English

As large language models (LLMs) are increasingly deployed as autonomous agents, understanding how strategic behavior emerges in multi-agent environments has become an important alignment challenge. We take a neutral empirical stance and construct a controlled environment in which strategic behavior can be directly observed and measured. We introduce a large-scale multi-agent simulation in a simplified model of New York City, where LLM-driven agents interact under opposing incentives. Blue agents aim to reach their destinations efficiently, while Red agents attempt to divert them toward billboard-heavy routes using persuasive language to maximize advertising revenue. Hidden identities make navigation socially mediated, forcing agents to decide when to trust or deceive. We study policy learning through an iterative simulation pipeline that updates agent policies across repeated interaction rounds using Kahneman-Tversky Optimization (KTO). Blue agents are optimized to reduce billboard exposure while preserving navigation efficiency, whereas Red agents adapt to exploit remaining weaknesses. Across iterations, the best Blue policy improves task success from 46.0% to 57.3%, although susceptibility remains high at 70.7%. Later policies exhibit stronger selective cooperation while preserving trajectory efficiency. However, a persistent safety-helpfulness trade-off remains: policies that better resist adversarial steering do not simultaneously maximize task completion. Overall, our results show that LLM agents can exhibit limited strategic behavior, including selective trust and deception, while remaining highly vulnerable to adversarial persuasion.

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

Аннотация

Support