EnterpriseClawBench : Évaluation comparative des agents à partir de sessions réelles en milieu professionnel

Résumé

Les agents d'entreprise opèrent de plus en plus dans des espaces de travail : ils lisent des fichiers hétérogènes, invoquent des outils et livrent des artefacts métier. Nous présentons EnterpriseClawBench, un benchmark d'agents d'entreprise construit à partir de sessions d'agents réelles et propriétaires. À partir d'une vaste archive de sessions de travail, EnterpriseClawBench produit 852 tâches reproductibles, chacune accompagnée de fixtures récupérées, d'invites réécrites, de classes de rôles, de sous-classes de compétences, de règles strictes et de grilles sémantiques. Comme les sessions contiennent du contenu interne d'entreprise, nous ne publions pas les données du benchmark ; notre contribution réutilisable est plutôt le protocole de construction et d'évaluation. Sur EnterpriseClawBench, la meilleure configuration n'atteint que 0,663 (Codex avec GPT-5.5). Ces résultats montrent que l'évaluation des agents d'entreprise doit rapporter les combinaisons harnais-modèle, la livraison d'artefacts, la qualité visuelle, le coût, le temps d'exécution et le comportement de transfert de compétences, plutôt que de réduire la performance à un score unique. Code : https://github.com/FrontisAI/EnterpriseClawBench

English

Enterprise agents increasingly operate inside workspaces: they read heterogeneous files, invoke tools, and deliver business artifacts. We introduce EnterpriseClawBench, an enterprise agent benchmark constructed from proprietary, real-world agent sessions. Starting from a large archive of workplace sessions, the EnterpriseClawBench produces 852 reproducible tasks, each paired with recovered fixtures, rewritten prompts, role classes, skill subclasses, hard rules, and semantic rubrics. Because the sessions contain internal enterprise content, we do not release the benchmark data; instead, our reusable contribution is the construction and evaluation protocol. On EnterpriseClawBench, the best configuration reaches only 0.663 (Codex with GPT-5.5). These results show that enterprise agent evaluation must report harness--model combinations, artifact delivery, visual quality, cost, runtime, and skill-transfer behavior, rather than collapsing performance into a single score. Code: https://github.com/FrontisAI/EnterpriseClawBench