CoffeeBench: Het benchmarken van langetermijn LLM-agenten in heterogene multi-agent economieën

Samenvatting

Naarmate LLM-agenten in staat worden gesteld om steeds langdurigere taken uit te voeren, wordt het evalueren van hun prestaties in economische systemen steeds belangrijker. In tegenstelling tot bestaande benchmarks, die voornamelijk een enkele agent evalueren die interactie heeft met een passieve omgeving, zijn economische systemen inherent multi-agent: ze vereisen dat autonome agenten communiceren, onderhandelen en transacties uitvoeren terwijl ze gedurende langere perioden hun eigen doelen nastreven. Wij introduceren CoffeeBench, een benchmark voor het evalueren van LLM-agenten in een langetermijn multi-agent economie bestaande uit heterogene bedrijven. In CoffeeBench runnen twee boeren, twee branders en twee detailhandelaren gedurende een simulatie van 90 dagen autonoom hun bedrijven, waarbij elk streeft naar maximalisatie van het cumulatieve netto-inkomen door communicatie en transacties, met beheer van kas, voorraad en prijsstelling. Het geëvalueerde model bestuurt één koffiebrander, terwijl de overige bedrijven worden aangestuurd door vaste referentie-agenten. Bij verschillende recente open-weight en propriëtaire LLM's presteren alle modellen beter dan een passieve basislijn die geen acties onderneemt, waarbij de meeste een positief netto-inkomen behalen. Analyse van het agentengedrag toont aanzienlijke verschillen aan in economische interactie op de lange termijn: beter presterende modellen communiceren actiever met andere bedrijven, terwijl Claude Haiku 4.5 een stationaire-afdrijvingsfoutmodus vertoont, waarbij herhaaldelijk voor inactiviteit wordt gekozen ondanks het produceren van coherente beoordelingen en plannen. Wij maken onze code en agenttrajecten openbaar om toekomstig onderzoek te ondersteunen.

English

As LLM agents become capable of increasingly long-horizon tasks, evaluating their performance in economic systems is becoming increasingly important. Unlike existing benchmarks that primarily evaluate a single agent interacting with a passive environment, economic systems are inherently multi-agent, requiring autonomous agents to communicate, negotiate, and transact while pursuing their own objectives over extended periods. We introduce CoffeeBench, a benchmark for evaluating LLM agents in a long-horizon multi-agent economy composed of heterogeneous firms. In CoffeeBench, two farmers, two roasters, and two retailers autonomously operate their businesses over a 90-day simulation, each seeking to maximize cumulative net income through communication and transactions while managing cash, inventory, and pricing. The evaluated model controls one coffee roaster, while the remaining firms are controlled by fixed reference agents. Across several recent open-weight and proprietary LLMs, all models outperform a passive baseline that takes no actions, with most achieving positive net income. Analysis of agent behavior reveals substantial differences in long-horizon economic interaction: higher-performing models communicate more actively with other firms, whereas Claude~Haiku~4.5 exhibits an idle-drift failure mode, repeatedly choosing inaction despite producing coherent assessments and plans. We release our code and agent trajectories to support future research.