EnterpriseClawBench: Benchmarking von Agenten aus realen Arbeitsplatzsitzungen

Zusammenfassung

Unternehmensagenten operieren zunehmend in Arbeitsbereichen: Sie lesen heterogene Dateien, rufen Werkzeuge auf und liefern betriebliche Artefakte aus. Wir stellen EnterpriseClawBench vor, einen Benchmark für Unternehmensagenten, der auf proprietären, realen Agentensitzungen basiert. Ausgehend von einem großen Archiv an Arbeitsplatzsitzungen generiert EnterpriseClawBench 852 reproduzierbare Aufgaben, jeweils versehen mit wiederhergestellten Fixtures, umgeschriebenen Prompts, Rollenklassen, Fertigkeitsunterklassen, harten Regeln und semantischen Bewertungsrichtlinien. Da die Sitzungen unternehmensinterne Inhalte enthalten, veröffentlichen wir die Benchmarkdaten nicht; unser wiederverwendbarer Beitrag besteht vielmehr im Konstruktions- und Evaluierungsprotokoll. Auf EnterpriseClawBench erreicht die beste Konfiguration lediglich 0,663 (Codex mit GPT-5.5). Diese Ergebnisse zeigen, dass die Evaluierung von Unternehmensagenten Kombinationen aus Prüfstand und Modell, Artefaktauslieferung, visuelle Qualität, Kosten, Laufzeit und Fertigkeitstransferverhalten berichten muss, anstatt die Leistung auf eine einzelne Kennzahl zu reduzieren. Code: https://github.com/FrontisAI/EnterpriseClawBench

English

Enterprise agents increasingly operate inside workspaces: they read heterogeneous files, invoke tools, and deliver business artifacts. We introduce EnterpriseClawBench, an enterprise agent benchmark constructed from proprietary, real-world agent sessions. Starting from a large archive of workplace sessions, the EnterpriseClawBench produces 852 reproducible tasks, each paired with recovered fixtures, rewritten prompts, role classes, skill subclasses, hard rules, and semantic rubrics. Because the sessions contain internal enterprise content, we do not release the benchmark data; instead, our reusable contribution is the construction and evaluation protocol. On EnterpriseClawBench, the best configuration reaches only 0.663 (Codex with GPT-5.5). These results show that enterprise agent evaluation must report harness--model combinations, artifact delivery, visual quality, cost, runtime, and skill-transfer behavior, rather than collapsing performance into a single score. Code: https://github.com/FrontisAI/EnterpriseClawBench