CocoaBench: Valutazione di Agenti Digitali Unificati in Ambiente Reale

Abstract

Gli agenti LLM dimostrano oggi prestazioni solide nell'ingegneria del software, nella ricerca approfondita, nell'automazione di interfacce grafiche e in varie altre applicazioni, mentre i recenti modelli e architetture di agenti integrano sempre più queste capacità in sistemi unificati. Tuttavia, la maggior parte delle valutazioni continua a testare queste capacità in modo isolato, lasciando un vuoto per casi d'uso più diversificati che richiedono agli agenti di combinare diverse abilità. Presentiamo CocoaBench, un benchmark per agenti digitali unificati, costruito a partire da compiti umani a lungo orizzonte che richiedono una composizione flessibile di visione, ricerca e codifica. I compiti sono specificati solo da un'istruzione e da una funzione di valutazione automatica sull'output finale, consentendo una valutazione affidabile e scalabile across diverse infrastrutture di agenti. Presentiamo anche CocoaAgent, un'architettura condivisa e leggera per confronti controllati tra diversi modelli di base. Gli esperimenti mostrano che gli agenti attuali sono ancora lontani dall'essere affidabili su CocoaBench, con il miglior sistema valutato che raggiunge solo il 45,1% di tasso di successo. La nostra analisi indica inoltre un ampio margine di miglioramento nel ragionamento e nella pianificazione, nell'uso degli strumenti e nella loro esecuzione, e nella comprensione visiva.

English

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.

CocoaBench: Valutazione di Agenti Digitali Unificati in Ambiente Reale

CocoaBench: Evaluating Unified Digital Agents in the Wild

Abstract

Support