ClawsBench: Avaliação da Capacidade e Segurança de Agentes de Produtividade baseados em LLM em Ambientes de Trabalho Simulados
ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces
April 6, 2026
Autores: Xiangyi Li, Kyoung Whan Choe, Yimin Liu, Xiaokun Chen, Chujun Tao, Bingran You, Wenbo Chen, Zonglin Di, Jiankai Sun, Shenghan Zheng, Jiajun Bao, Yuanli Wang, Weixiang Yan, Yiyuan Li, Han-chung Lee
cs.AI
Resumo
Os agentes de modelos de linguagem de grande escala (LLM) estão cada vez mais sendo implantados para automatizar tarefas de produtividade (por exemplo, e-mail, agendamento, gestão de documentos), mas avaliá-los em serviços ao vivo é arriscado devido a possíveis alterações irreversíveis. Os benchmarks existentes baseiam-se em ambientes simplificados e não conseguem capturar fluxos de trabalho realistas, com estado e multi-serviço. Apresentamos o ClawsBench, um benchmark para avaliar e melhorar agentes de LLM em ambientes realistas de produtividade. Ele inclui cinco serviços simulados de alta fidelidade (Gmail, Slack, Google Agenda, Google Docs, Google Drive) com gestão completa de estado e snapshot/restauro determinísticos, juntamente com 44 tarefas estruturadas que abrangem cenários de serviço único, multi-serviço e críticos para a segurança. Decompomos o *scaffolding* do agente em duas alavancas independentes (*domain skills* que injetam conhecimento de API através de divulgação progressiva, e um *meta prompt* que coordena o comportamento entre serviços) e variamos ambas para medir os seus efeitos separados e combinados. Experiências com 6 modelos, 4 *harnesses* de agente e 33 condições mostram que, com *scaffolding* total, os agentes atingem taxas de sucesso de tarefa de 39-64%, mas exibem taxas de ação insegura de 7-33%. No OpenClaw, os cinco melhores modelos situam-se numa faixa de 10 pontos percentuais no sucesso da tarefa (53-63%), com taxas de ação insegura de 7% a 23% e sem uma ordenação consistente entre as duas métricas. Identificamos oito padrões recorrentes de comportamento inseguro, incluindo escalonamento multi-etapa do *sandbox* e modificação silenciosa de contratos.
English
Large language model (LLM) agents are increasingly deployed to automate productivity tasks (e.g., email, scheduling, document management), but evaluating them on live services is risky due to potentially irreversible changes. Existing benchmarks rely on simplified environments and fail to capture realistic, stateful, multi-service workflows. We introduce ClawsBench, a benchmark for evaluating and improving LLM agents in realistic productivity settings. It includes five high-fidelity mock services (Gmail, Slack, Google Calendar, Google Docs, Google Drive) with full state management and deterministic snapshot/restore, along with 44 structured tasks covering single-service, cross-service, and safety-critical scenarios. We decompose agent scaffolding into two independent levers (domain skills that inject API knowledge via progressive disclosure, and a meta prompt that coordinates behavior across services) and vary both to measure their separate and combined effects. Experiments across 6 models, 4 agent harnesses, and 33 conditions show that with full scaffolding, agents achieve task success rates of 39-64% but exhibit unsafe action rates of 7-33%. On OpenClaw, the top five models fall within a 10 percentage-point band on task success (53-63%), with unsafe action rates from 7% to 23% and no consistent ordering between the two metrics. We identify eight recurring patterns of unsafe behavior, including multi-step sandbox escalation and silent contract modification.