CocoaBench: Evaluatie van Uniforme Digitale Agenten in de Praktijk

Samenvatting

LLM-agenten presteren tegenwoordig sterk in software-engineering, diepgaand onderzoek, GUI-automatisering en diverse andere toepassingen, terwijl recente agent-scaffolds en modellen deze capaciteiten steeds meer integreren in geünificeerde systemen. Toch testen de meeste evaluaties deze capaciteiten nog steeds geïsoleerd, wat een lacune laat voor meer diverse use cases die vereisen dat agenten verschillende capaciteiten combineren. Wij introduceren CocoaBench, een benchmark voor geünificeerde digitale agenten, opgebouwd uit door mensen ontworpen, langetermijntaken die een flexibele compositie van visie, zoekfuncties en codering vereisen. Taken worden uitsluitend gespecificeerd door een instructie en een automatische evaluatiefunctie over de uiteindelijke output, wat betrouwbare en schaalbare evaluatie mogelijk maakt across diverse agent-infrastructuren. Wij presenteren ook CocoaAgent, een lichtgewicht gedeelde scaffold voor gecontroleerde vergelijking across model-backbones. Experimenten tonen aan dat huidige agenten nog ver verwijderd zijn van betrouwbare prestaties op CocoaBench, waarbij het best geëvalueerde systeem slechts een slagingspercentage van 45,1% behaalt. Onze analyse wijst verder op aanzienlijke verbeteringsmogelijkheden in redeneren en plannen, toolgebruik en -uitvoering, en visuele grounding.

English

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.

CocoaBench: Evaluatie van Uniforme Digitale Agenten in de Praktijk

CocoaBench: Evaluating Unified Digital Agents in the Wild

Samenvatting

Support