ClawsBench : Évaluation des capacités et de la sécurité des agents de productivité basés sur LLM dans des espaces de travail simulés
ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces
April 6, 2026
Auteurs: Xiangyi Li, Kyoung Whan Choe, Yimin Liu, Xiaokun Chen, Chujun Tao, Bingran You, Wenbo Chen, Zonglin Di, Jiankai Sun, Shenghan Zheng, Jiajun Bao, Yuanli Wang, Weixiang Yan, Yiyuan Li, Han-chung Lee
cs.AI
Résumé
Les agents de modèles de langage de grande taille (LLM) sont de plus en plus déployés pour automatiser les tâches de productivité (par exemple, courriel, planification, gestion de documents), mais leur évaluation sur des services en direct est risquée en raison de modifications potentiellement irréversibles. Les bancs d'essai existants reposent sur des environnements simplifiés et ne parviennent pas à capturer des workflows réalistes, avec état et multi-services. Nous présentons ClawsBench, un banc d'essai pour évaluer et améliorer les agents LLM dans des contextes de productivité réalistes. Il comprend cinq services simulés de haute fidélité (Gmail, Slack, Google Agenda, Google Docs, Google Drive) avec une gestion complète de l'état et des fonctions déterministes d'instantané/restauration, ainsi que 44 tâches structurées couvrant des scénarios mono-service, inter-services et critiques pour la sécurité. Nous décomposons l'échafaudage des agents en deux leviers indépendants (les compétences métier qui injectent des connaissances API via une divulgation progressive, et un méta-invite qui coordonne le comportement entre les services) et faisons varier les deux pour mesurer leurs effets séparés et combinés. Les expériences sur 6 modèles, 4 infrastructures d'agents et 33 conditions montrent qu'avec un échafaudage complet, les agents atteignent des taux de réussite des tâches de 39 à 64 % mais présentent des taux d'actions non sécurisées de 7 à 33 %. Sur OpenClaw, les cinq meilleurs modèles se situent dans une fourchette de 10 points de pourcentage pour la réussite des tâches (53-63 %), avec des taux d'actions non sécurisées de 7 % à 23 % et aucun ordre cohérent entre les deux métriques. Nous identifions huit schémas récurrents de comportement non sécurisé, incluant l'escalade de privilèges en plusieurs étapes et la modification silencieuse de contrats.
English
Large language model (LLM) agents are increasingly deployed to automate productivity tasks (e.g., email, scheduling, document management), but evaluating them on live services is risky due to potentially irreversible changes. Existing benchmarks rely on simplified environments and fail to capture realistic, stateful, multi-service workflows. We introduce ClawsBench, a benchmark for evaluating and improving LLM agents in realistic productivity settings. It includes five high-fidelity mock services (Gmail, Slack, Google Calendar, Google Docs, Google Drive) with full state management and deterministic snapshot/restore, along with 44 structured tasks covering single-service, cross-service, and safety-critical scenarios. We decompose agent scaffolding into two independent levers (domain skills that inject API knowledge via progressive disclosure, and a meta prompt that coordinates behavior across services) and vary both to measure their separate and combined effects. Experiments across 6 models, 4 agent harnesses, and 33 conditions show that with full scaffolding, agents achieve task success rates of 39-64% but exhibit unsafe action rates of 7-33%. On OpenClaw, the top five models fall within a 10 percentage-point band on task success (53-63%), with unsafe action rates from 7% to 23% and no consistent ordering between the two metrics. We identify eight recurring patterns of unsafe behavior, including multi-step sandbox escalation and silent contract modification.