Agent Bazaar: Ermöglichung wirtschaftlicher Abstimmung in Multi-Agenten-Marktplätzen

Zusammenfassung

Die Bereitstellung großer Sprachmodelle (Large Language Models, LLMs) als autonome wirtschaftliche Akteure birgt systemische Risiken, die über individuelle Leistungsfehler hinausgehen. Wenn diese Akteure beginnen, direkt mit Marktplätzen zu interagieren, kann ihr kollektives Verhalten die Volatilität verstärken und Täuschung in großem Maßstab verschleiern. Wir stellen den Agent Bazaar vor, ein Multi-Agenten-Simulationsframework zur Bewertung von Economic Alignment – der Fähigkeit agentischer Systeme, Marktstabilität und -integrität zu bewahren. Wir identifizieren zwei Fehlermodi: (1) Algorithmische Instabilität in einem B2C-Markt („Der Crash“), bei dem Firmen die Preisvolatilität verstärken, bis der Markt zusammenbricht, und (2) Sybil-Täuschung in einem C2C-Markt („Der Lemons-Markt“), bei dem ein einziger täuschender Akteur, der mehrere koordinierte Verkäuferidentitäten kontrolliert, den Markt mit betrügerischen Angeboten überschwemmt und so Vertrauen und Verbraucherwohlfahrt untergräbt. Wir evaluieren Frontier- und Open-Weight-Modelle in beiden Szenarien und stellen fest, dass die Modelle weitgehend nicht in der Lage sind, sich selbst zu regulieren, wobei die Schwere des Versagens eher vom Modell als von seiner Größe abhängt. Wir schlagen wirtschaftlich ausgerichtete Kontrollmechanismen vor – Stabilisierende Firmen und Skeptische Wächter –, die die Ergebnisse verbessern, aber unter schwierigeren Marktbedingungen fragil bleiben. Um diese Lücke zu schließen, trainieren wir Agenten mit REINFORCE++ unter Verwendung eines adaptiven Curriculums und erhalten ein 9B-Modell, das alle evaluierten Frontier- und Open-Weight-Modelle übertrifft. Wir schlagen den Economic Alignment Score (EAS) vor, eine vierkomponentige skalare Metrik, die Stabilität, Integrität, Wohlfahrt und Rentabilität aggregiert und so direkte modellübergreifende Vergleiche ermöglicht. Unsere Ergebnisse zeigen, dass Economic Alignment orthogonal zu allgemeinen Fähigkeiten ist und durch gezieltes Reinforcement Learning direkt trainiert werden kann.

English

The deployment of Large Language Models (LLMs) as autonomous economic agents introduces systemic risks that extend beyond individual capability failures. As agents transition to directly interacting with marketplaces, their collective behavior can amplify volatility and mask deception at scale. We introduce the Agent Bazaar, a multi-agent simulation framework for evaluating Economic Alignment, the capacity of agentic systems to preserve market stability and integrity. We identify two failure modes: (1) Algorithmic Instability in a B2C market ("The Crash"), where firms amplify price volatility until the market collapses, and (2) Sybil Deception in a C2C market ("The Lemon Market"), where a single deceptive agent controlling multiple coordinated seller identities floods the market with fraudulent listings, eroding trust and consumer welfare. We evaluate frontier and open-weight models across both scenarios and find that models largely fail to self-regulate, with failure severity varying by model rather than by size. We propose economically aligned harnesses, Stabilizing Firms and Skeptical Guardians, that improve outcomes but remain fragile under harder market conditions. To close this gap, we train agents with REINFORCE++ using an adaptive curriculum, producing a 9B model that outperforms all evaluated frontier and open-weight models. We propose the Economic Alignment Score (EAS), a 4-component scalar metric aggregating stability, integrity, welfare, and profitability, enabling direct cross-model comparison. Our results show that economic alignment is orthogonal to general capability and can be directly trained with targeted RL.