CocoaBench : Évaluation d'Agents Numériques Unifiés en Conditions Réelles

Résumé

Les agents de grands modèles linguistiques excellent désormais dans l'ingénierie logicielle, la recherche approfondie, l'automatisation d'interfaces graphiques et diverses autres applications, tandis que les architectures et modèles d'agents récents intègrent de plus en plus ces capacités dans des systèmes unifiés. Pourtant, la plupart des évaluations testent encore ces capacités de manière isolée, ce qui laisse un vide pour des cas d'usage plus diversifiés nécessitant que les agents combinent différentes compétences. Nous présentons CocoaBench, un benchmark pour agents numériques unifiés, construit à partir de tâches complexes conçues par des humains qui requièrent une composition flexible de la vision, de la recherche et du codage. Les tâches sont spécifiées uniquement par une instruction et une fonction d'évaluation automatique sur le résultat final, permettant une évaluation fiable et scalable across diverses infrastructures d'agents. Nous présentons également CocoaAgent, une architecture partagée légère permettant des comparaisons contrôlées entre différents modèles de base. Les expériences montrent que les agents actuels restent loin d'être fiables sur CocoaBench, le meilleur système évalué n'atteignant qu'un taux de réussite de 45,1%. Notre analyse souligne en outre une marge d'amélioration substantielle dans le raisonnement et la planification, l'utilisation et l'exécution d'outils, ainsi que l'ancrage visuel.

English

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.

CocoaBench : Évaluation d'Agents Numériques Unifiés en Conditions Réelles

CocoaBench: Evaluating Unified Digital Agents in the Wild

Résumé

Support