AgenticPay: Um Sistema de Negociação Multiagente com LLM para Transações entre Comprador e Vendedor

Resumo

Os agentes baseados em modelos de linguagem de grande escala (LLM) são cada vez mais esperados para negociar, coordenar e transacionar autonomamente, no entanto, os benchmarks existentes carecem de configurações fundamentadas para avaliar a interação económica mediada por linguagem entre múltiplos agentes. Apresentamos o AgenticPay, um benchmark e framework de simulação para negociação multiagente entre comprador e vendedor, orientada por linguagem natural. O AgenticPay modela mercados nos quais compradores e vendedores possuem restrições privadas e valorações dependentes do produto, e devem chegar a acordos através de negociação linguística multi-turno, e não apenas através de licitações numéricas. O framework suporta um conjunto diversificado de mais de 110 tarefas, que vão desde a barganha bilateral até mercados muitos-para-muitos, com extração estruturada de ações e métricas para viabilidade, eficiência e bem-estar. A avaliação de LLMs de última geração, proprietários e de pesos abertos, revela lacunas substanciais no desempenho de negociação e destaca desafios no raciocínio estratégico de longo horizonte, estabelecendo o AgenticPay como uma base para estudar o comércio agentivo e a interação de mercado baseada em linguagem. O código e o conjunto de dados estão disponíveis no link: https://github.com/SafeRL-Lab/AgenticPay.

English

Large language model (LLM)-based agents are increasingly expected to negotiate, coordinate, and transact autonomously, yet existing benchmarks lack principled settings for evaluating language-mediated economic interaction among multiple agents. We introduce AgenticPay, a benchmark and simulation framework for multi-agent buyer-seller negotiation driven by natural language. AgenticPay models markets in which buyers and sellers possess private constraints and product-dependent valuations, and must reach agreements through multi-round linguistic negotiation rather than numeric bidding alone. The framework supports a diverse suite of over 110 tasks ranging from bilateral bargaining to many-to-many markets, with structured action extraction and metrics for feasibility, efficiency, and welfare. Benchmarking state-of-the-art proprietary and open-weight LLMs reveals substantial gaps in negotiation performance and highlights challenges in long-horizon strategic reasoning, establishing AgenticPay as a foundation for studying agentic commerce and language-based market interaction. Code and dataset are available at the link: https://github.com/SafeRL-Lab/AgenticPay.