ClawsBench: Evaluatie van Capaciteit en Veiligheid van LLM-productiviteitsagenten in Gesimuleerde Werkruimtes

Samenvatting

Grootschalige taalmodel (LLM) agenten worden steeds vaker ingezet om productiviteitstaken te automatiseren (bijv. e-mail, planning, documentbeheer), maar het evalueren ervan op live diensten is riskant vanwege mogelijk onomkeerbare veranderingen. Bestaande benchmarks maken gebruik van vereenvoudigde omgevingen en slagen er niet in realistische, stateful, multi-service werkstromen vast te leggen. Wij introduceren ClawsBench, een benchmark voor het evalueren en verbeteren van LLM-agenten in realistische productiviteitsomgevingen. Deze omvat vijf mockdiensten van hoge kwaliteit (Gmail, Slack, Google Agenda, Google Documenten, Google Drive) met volledig state management en deterministische snapshot/herstel-functionaliteit, samen met 44 gestructureerde taken die single-service, cross-service en veiligheidskritieke scenario's bestrijken. We ontleden agent scaffolding in twee onafhankelijke hefbomen (domainevaardigheden die API-kennis injecteren via progressieve openbaarmaking, en een meta-prompt die gedrag coördineert over diensten heen) en variëren beide om hun afzonderlijke en gecombineerde effecten te meten. Experimenten over 6 modellen, 4 agent-harnassen en 33 condities tonen aan dat agenten met volledige scaffolding taaksuccespercentages van 39-64% behalen, maar onveilige actiepercentages van 7-33% vertonen. Op OpenClaw vallen de top vijf modellen binnen een bandbreedte van 10 procentpunt voor taaksucces (53-63%), met onveilige actiepercentages van 7% tot 23% en geen consistente rangschikking tussen de twee metrieken. We identificeren acht terugkerende patronen van onveilig gedrag, waaronder multi-stap sandbox-escalatie en stille contractwijziging.

English

Large language model (LLM) agents are increasingly deployed to automate productivity tasks (e.g., email, scheduling, document management), but evaluating them on live services is risky due to potentially irreversible changes. Existing benchmarks rely on simplified environments and fail to capture realistic, stateful, multi-service workflows. We introduce ClawsBench, a benchmark for evaluating and improving LLM agents in realistic productivity settings. It includes five high-fidelity mock services (Gmail, Slack, Google Calendar, Google Docs, Google Drive) with full state management and deterministic snapshot/restore, along with 44 structured tasks covering single-service, cross-service, and safety-critical scenarios. We decompose agent scaffolding into two independent levers (domain skills that inject API knowledge via progressive disclosure, and a meta prompt that coordinates behavior across services) and vary both to measure their separate and combined effects. Experiments across 6 models, 4 agent harnesses, and 33 conditions show that with full scaffolding, agents achieve task success rates of 39-64% but exhibit unsafe action rates of 7-33%. On OpenClaw, the top five models fall within a 10 percentage-point band on task success (53-63%), with unsafe action rates from 7% to 23% and no consistent ordering between the two metrics. We identify eight recurring patterns of unsafe behavior, including multi-step sandbox escalation and silent contract modification.

ClawsBench: Evaluatie van Capaciteit en Veiligheid van LLM-productiviteitsagenten in Gesimuleerde Werkruimtes

ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces

Samenvatting

Support