Agent Bazaar: Possibilitando o Alinhamento Econômico em Mercados Multiagente

Resumo

A implementação de Modelos de Linguagem de Grande Porte (LLMs) como agentes econômicos autônomos introduz riscos sistêmicos que vão além de falhas individuais de capacidade. À medida que os agentes transitam para interagir diretamente com mercados, seu comportamento coletivo pode amplificar a volatilidade e mascarar enganos em larga escala. Apresentamos o Agent Bazaar, um framework de simulação multiagente para avaliar o Alinhamento Econômico, ou seja, a capacidade de sistemas agentivos de preservar a estabilidade e a integridade do mercado. Identificamos dois modos de falha: (1) Instabilidade Algorítmica em um mercado B2C ("O Colapso"), onde empresas amplificam a volatilidade de preços até o colapso do mercado, e (2) Decepção Sybil em um mercado C2C ("O Mercado de Limões"), onde um único agente enganoso, controlando múltiplas identidades de vendedores coordenadas, inunda o mercado com anúncios fraudulentos, erodindo a confiança e o bem-estar do consumidor. Avaliamos modelos de fronteira e de pesos abertos em ambos os cenários e constatamos que os modelos falham amplamente em se autorregular, com a gravidade da falha variando conforme o modelo, e não conforme seu tamanho. Propomos mecanismos de alinhamento econômico — Empresas Estabilizadoras e Guardiões Céticos — que melhoram os resultados, mas permanecem frágeis sob condições de mercado mais adversas. Para preencher essa lacuna, treinamos agentes com REINFORCE++ utilizando um currículo adaptativo, produzindo um modelo de 9B que supera todos os modelos de fronteira e de pesos abertos avaliados. Propomos o Escore de Alinhamento Econômico (EAE), uma métrica escalar de quatro componentes que agrega estabilidade, integridade, bem-estar e lucratividade, permitindo a comparação direta entre modelos. Nossos resultados mostram que o alinhamento econômico é ortogonal à capacidade geral e pode ser diretamente treinado com RL direcionado.

English

The deployment of Large Language Models (LLMs) as autonomous economic agents introduces systemic risks that extend beyond individual capability failures. As agents transition to directly interacting with marketplaces, their collective behavior can amplify volatility and mask deception at scale. We introduce the Agent Bazaar, a multi-agent simulation framework for evaluating Economic Alignment, the capacity of agentic systems to preserve market stability and integrity. We identify two failure modes: (1) Algorithmic Instability in a B2C market ("The Crash"), where firms amplify price volatility until the market collapses, and (2) Sybil Deception in a C2C market ("The Lemon Market"), where a single deceptive agent controlling multiple coordinated seller identities floods the market with fraudulent listings, eroding trust and consumer welfare. We evaluate frontier and open-weight models across both scenarios and find that models largely fail to self-regulate, with failure severity varying by model rather than by size. We propose economically aligned harnesses, Stabilizing Firms and Skeptical Guardians, that improve outcomes but remain fragile under harder market conditions. To close this gap, we train agents with REINFORCE++ using an adaptive curriculum, producing a 9B model that outperforms all evaluated frontier and open-weight models. We propose the Economic Alignment Score (EAS), a 4-component scalar metric aggregating stability, integrity, welfare, and profitability, enabling direct cross-model comparison. Our results show that economic alignment is orthogonal to general capability and can be directly trained with targeted RL.