ClawsBench: Valutazione delle Capacità e della Sicurezza degli Agenti Produttivi basati su LLM in Ambienti di Lavoro Simulati

Abstract

Gli agenti basati su grandi modelli linguistici (LLM) sono sempre più impiegati per automatizzare compiti di produttività (ad esempio, email, pianificazione, gestione documenti), ma valutarli su servizi reali è rischioso a causa di potenziali modifiche irreversibili. I benchmark esistenti si basano su ambienti semplificati e non riescono a cogliere flussi di lavoro realistici, con stato e multi-servizio. Introduciamo ClawsBench, un benchmark per valutare e migliorare gli agenti LLM in contesti produttivi realistici. Include cinque servizi mock fedeli (Gmail, Slack, Google Calendar, Google Docs, Google Drive) con gestione completa dello stato e funzionalità deterministiche di snapshot/ripristino, insieme a 44 task strutturati che coprono scenari single-service, cross-service e critici per la sicurezza. Scomponiamo l'impalcatura dell'agente in due leve indipendenti (competenze di dominio che iniettano conoscenza delle API tramite disclosure progressivo, e un meta-prompt che coordina il comportamento tra i servizi) e le variamo entrambe per misurarne gli effetti separati e combinati. Esperimenti su 6 modelli, 4 harness di agenti e 33 condizioni mostrano che, con l'impalcatura completa, gli agenti raggiungono tassi di successo del task tra il 39% e il 64%, ma presentano tassi di azioni non sicure tra il 7% e il 33%. Su OpenClaw, i primi cinque modelli rientrano in una fascia di 10 punti percentuali sul successo del task (53-63%), con tassi di azioni non sicure dal 7% al 23% e nessun ordinamento coerente tra le due metriche. Identifichiamo otto pattern ricorrenti di comportamento non sicuro, inclusi escalation multi-step del sandbox e modifica silente del contratto.

English

Large language model (LLM) agents are increasingly deployed to automate productivity tasks (e.g., email, scheduling, document management), but evaluating them on live services is risky due to potentially irreversible changes. Existing benchmarks rely on simplified environments and fail to capture realistic, stateful, multi-service workflows. We introduce ClawsBench, a benchmark for evaluating and improving LLM agents in realistic productivity settings. It includes five high-fidelity mock services (Gmail, Slack, Google Calendar, Google Docs, Google Drive) with full state management and deterministic snapshot/restore, along with 44 structured tasks covering single-service, cross-service, and safety-critical scenarios. We decompose agent scaffolding into two independent levers (domain skills that inject API knowledge via progressive disclosure, and a meta prompt that coordinates behavior across services) and vary both to measure their separate and combined effects. Experiments across 6 models, 4 agent harnesses, and 33 conditions show that with full scaffolding, agents achieve task success rates of 39-64% but exhibit unsafe action rates of 7-33%. On OpenClaw, the top five models fall within a 10 percentage-point band on task success (53-63%), with unsafe action rates from 7% to 23% and no consistent ordering between the two metrics. We identify eight recurring patterns of unsafe behavior, including multi-step sandbox escalation and silent contract modification.

ClawsBench: Valutazione delle Capacità e della Sicurezza degli Agenti Produttivi basati su LLM in Ambienti di Lavoro Simulati

ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces

Abstract

Support