Agent Bazaar: Обеспечение экономической согласованности в многоагентных торговых площадках

Аннотация

Развертывание больших языковых моделей (БЯМ) в качестве автономных экономических агентов влечет за собой системные риски, выходящие за рамки индивидуальных сбоев в производительности. По мере того как агенты переходят к прямому взаимодействию с торговыми площадками, их коллективное поведение может усиливать волатильность и маскировать обман в масштабе. Мы представляем Agent Bazaar — мультиагентную среду симуляции для оценки экономической согласованности, то есть способности агентных систем поддерживать стабильность и целостность рынка. Мы выявляем два режима отказа: (1) алгоритмическая нестабильность на рынке B2C («Обвал»), когда фирмы усиливают ценовую волатильность до полного краха рынка, и (2) сивилловский обман на рынке C2C («Рынок лимонов»), когда один обманный агент, контролирующий несколько скоординированных идентичностей продавцов, наводняет рынок мошенническими объявлениями, подрывая доверие и благосостояние потребителей. Мы оцениваем передовые модели и модели с открытыми весами в обоих сценариях и обнаруживаем, что модели в значительной степени не способны к саморегуляции, причем степень тяжести сбоев варьируется в зависимости от модели, а не от её размера. Мы предлагаем экономически согласованные обвязки — стабилизирующие фирмы и скептических хранителей, которые улучшают результаты, но остаются хрупкими в более жестких рыночных условиях. Для устранения этого разрыва мы обучаем агентов с помощью REINFORCE++ с использованием адаптивной учебной программы, что дает модель на 9 миллиардов параметров, превосходящую все оцененные передовые модели и модели с открытыми весами. Мы предлагаем оценку экономической согласованности (ЭСС) — скалярную метрику из четырех компонентов, агрегирующую стабильность, целостность, благосостояние и прибыльность, что позволяет проводить прямое сравнение между моделями. Наши результаты показывают, что экономическая согласованность ортогональна общей производительности и может быть напрямую обучена с помощью целенаправленного обучения с подкреплением.

English

The deployment of Large Language Models (LLMs) as autonomous economic agents introduces systemic risks that extend beyond individual capability failures. As agents transition to directly interacting with marketplaces, their collective behavior can amplify volatility and mask deception at scale. We introduce the Agent Bazaar, a multi-agent simulation framework for evaluating Economic Alignment, the capacity of agentic systems to preserve market stability and integrity. We identify two failure modes: (1) Algorithmic Instability in a B2C market ("The Crash"), where firms amplify price volatility until the market collapses, and (2) Sybil Deception in a C2C market ("The Lemon Market"), where a single deceptive agent controlling multiple coordinated seller identities floods the market with fraudulent listings, eroding trust and consumer welfare. We evaluate frontier and open-weight models across both scenarios and find that models largely fail to self-regulate, with failure severity varying by model rather than by size. We propose economically aligned harnesses, Stabilizing Firms and Skeptical Guardians, that improve outcomes but remain fragile under harder market conditions. To close this gap, we train agents with REINFORCE++ using an adaptive curriculum, producing a 9B model that outperforms all evaluated frontier and open-weight models. We propose the Economic Alignment Score (EAS), a 4-component scalar metric aggregating stability, integrity, welfare, and profitability, enabling direct cross-model comparison. Our results show that economic alignment is orthogonal to general capability and can be directly trained with targeted RL.