CoffeeBench: Бенчмаркинг долгосрочных LLM-агентов в гетерогенных мультиагентных экономиках

Аннотация

По мере того как агенты на основе LLM становятся способными решать всё более долгосрочные задачи, оценка их производительности в экономических системах приобретает всё большую важность. В отличие от существующих бенчмарков, которые в основном оценивают одного агента, взаимодействующего с пассивной средой, экономические системы по своей сути являются мультиагентными: они требуют, чтобы автономные агенты общались, вели переговоры и совершали сделки, преследуя собственные цели в течение длительных периодов времени. Мы представляем CoffeeBench — бенчмарк для оценки агентов на основе LLM в долгосрочной мультиагентной экономике, состоящей из гетерогенных фирм. В CoffeeBench два фермера, два обжарщика и два розничных продавца автономно управляют своим бизнесом в ходе 90-дневной симуляции, каждый из них стремится максимизировать совокупный чистый доход посредством общения и транзакций, управляя при этом денежными средствами, запасами и ценообразованием. Оцениваемая модель управляет одним обжарщиком кофе, в то время как остальные фирмы управляются фиксированными эталонными агентами. Среди нескольких недавних LLM с открытым весом и проприетарных LLM все модели превзошли пассивный базовый уровень, который не предпринимает никаких действий, при этом большинство из них получили положительный чистый доход. Анализ поведения агентов выявил существенные различия в долгосрочном экономическом взаимодействии: более производительные модели активнее общаются с другими фирмами, тогда как Claude Haiku 4.5 демонстрирует режим отказа «праздный дрейф», многократно выбирая бездействие, несмотря на формулирование связных оценок и планов. Мы публикуем наш код и траектории агентов для поддержки будущих исследований.

English

As LLM agents become capable of increasingly long-horizon tasks, evaluating their performance in economic systems is becoming increasingly important. Unlike existing benchmarks that primarily evaluate a single agent interacting with a passive environment, economic systems are inherently multi-agent, requiring autonomous agents to communicate, negotiate, and transact while pursuing their own objectives over extended periods. We introduce CoffeeBench, a benchmark for evaluating LLM agents in a long-horizon multi-agent economy composed of heterogeneous firms. In CoffeeBench, two farmers, two roasters, and two retailers autonomously operate their businesses over a 90-day simulation, each seeking to maximize cumulative net income through communication and transactions while managing cash, inventory, and pricing. The evaluated model controls one coffee roaster, while the remaining firms are controlled by fixed reference agents. Across several recent open-weight and proprietary LLMs, all models outperform a passive baseline that takes no actions, with most achieving positive net income. Analysis of agent behavior reveals substantial differences in long-horizon economic interaction: higher-performing models communicate more actively with other firms, whereas Claude~Haiku~4.5 exhibits an idle-drift failure mode, repeatedly choosing inaction despite producing coherent assessments and plans. We release our code and agent trajectories to support future research.