ClawsBench: Bewertung der Fähigkeiten und Sicherheit von LLM-Produktivitätsagenten in simulierten Arbeitsumgebungen
ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces
April 6, 2026
Autoren: Xiangyi Li, Kyoung Whan Choe, Yimin Liu, Xiaokun Chen, Chujun Tao, Bingran You, Wenbo Chen, Zonglin Di, Jiankai Sun, Shenghan Zheng, Jiajun Bao, Yuanli Wang, Weixiang Yan, Yiyuan Li, Han-chung Lee
cs.AI
Zusammenfassung
Große Sprachmodell-Agenten (LLM-Agents) werden zunehmend zur Automatisierung von Produktivitätsaufgaben (z. B. E-Mail, Terminplanung, Dokumentenverwaltung) eingesetzt, doch ihre Bewertung in Live-Diensten ist riskant, da potenziell irreversible Änderungen auftreten können. Bestehende Benchmarks basieren auf vereinfachten Umgebungen und erfassen keine realistischen, zustandsbehafteten Multi-Service-Workflows. Wir stellen ClawsBench vor, einen Benchmark zur Bewertung und Verbesserung von LLM-Agenten in realistischen Produktivitätsszenarien. Er umfasst fünf hochwertige Mock-Dienste (Gmail, Slack, Google Kalender, Google Docs, Google Drive) mit vollständiger Zustandsverwaltung und deterministischen Snapshot-/Wiederherstellungsfunktionen sowie 44 strukturierte Aufgaben, die Einzeldienst-, dienstübergreifende und sicherheitskritische Szenarien abdecken. Wir zerlegen die Agenten-Scaffolding in zwei unabhängige Stellschrauben (Domänenkenntnisse, die API-Wissen durch progressives Offenlegen einbringen, und ein Meta-Prompt, das das Verhalten über Dienste hinweg koordiniert) und variieren beide, um ihre separaten und kombinierten Effekte zu messen. Experimente mit 6 Modellen, 4 Agenten-Harnesses und 33 Konfigurationen zeigen, dass Agenten mit vollständigem Scaffolding Aufgabenerfolgsquoten von 39–64 % erreichen, aber unsichere Aktionsraten von 7–33 % aufweisen. Bei OpenClaw liegen die fünf besten Modelle in einer Spanne von 10 Prozentpunkten beim Aufgabenerfolg (53–63 %), mit unsicheren Aktionsraten von 7 % bis 23 % und ohne konsistente Rangfolge zwischen den beiden Metriken. Wir identifizieren acht wiederkehrende Muster unsicheren Verhaltens, darunter mehrstufige Sandbox-Eskalation und stille Vertragsänderung.
English
Large language model (LLM) agents are increasingly deployed to automate productivity tasks (e.g., email, scheduling, document management), but evaluating them on live services is risky due to potentially irreversible changes. Existing benchmarks rely on simplified environments and fail to capture realistic, stateful, multi-service workflows. We introduce ClawsBench, a benchmark for evaluating and improving LLM agents in realistic productivity settings. It includes five high-fidelity mock services (Gmail, Slack, Google Calendar, Google Docs, Google Drive) with full state management and deterministic snapshot/restore, along with 44 structured tasks covering single-service, cross-service, and safety-critical scenarios. We decompose agent scaffolding into two independent levers (domain skills that inject API knowledge via progressive disclosure, and a meta prompt that coordinates behavior across services) and vary both to measure their separate and combined effects. Experiments across 6 models, 4 agent harnesses, and 33 conditions show that with full scaffolding, agents achieve task success rates of 39-64% but exhibit unsafe action rates of 7-33%. On OpenClaw, the top five models fall within a 10 percentage-point band on task success (53-63%), with unsafe action rates from 7% to 23% and no consistent ordering between the two metrics. We identify eight recurring patterns of unsafe behavior, including multi-step sandbox escalation and silent contract modification.