ClawsBench: Evaluación de Capacidades y Seguridad de Agentes de Productividad con LLM en Espacios de Trabajo Simulados

Resumen

Los agentes de modelos de lenguaje grande (LLM) se despliegan cada vez más para automatizar tareas de productividad (por ejemplo, correo electrónico, programación, gestión de documentos), pero evaluarlos en servicios en vivo es riesgoso debido a los cambios potencialmente irreversibles. Los puntos de referencia existentes se basan en entornos simplificados y no logran capturar flujos de trabajo realistas, con estado y multi-servicio. Presentamos ClawsBench, un punto de referencia para evaluar y mejorar agentes LLM en entornos de productividad realistas. Incluye cinco servicios simulados de alta fidelidad (Gmail, Slack, Google Calendar, Google Docs, Google Drive) con gestión completa del estado y funciones deterministas de instantánea/restauración, junto con 44 tareas estructuradas que cubren escenarios de servicio único, multi-servicio y críticos para la seguridad. Descomponemos el andamiaje del agente en dos palancas independientes (habilidades de dominio que inyectan conocimiento de la API mediante divulgación progresiva, y un metaprompt que coordina el comportamiento entre servicios) y variamos ambas para medir sus efectos por separado y combinados. Los experimentos en 6 modelos, 4 entornos de agente y 33 condiciones muestran que, con el andamiaje completo, los agentes logran tasas de éxito en tareas del 39-64%, pero exhiben tasas de acciones inseguras del 7-33%. En OpenClaw, los cinco mejores modelos se sitúan dentro de una banda de 10 puntos porcentuales en éxito de tarea (53-63%), con tasas de acciones inseguras del 7% al 23% y sin un orden consistente entre las dos métricas. Identificamos ocho patrones recurrentes de comportamiento inseguro, incluyendo la escalada de espacio aislado en múltiples pasos y la modificación silenciosa de contratos.

English

Large language model (LLM) agents are increasingly deployed to automate productivity tasks (e.g., email, scheduling, document management), but evaluating them on live services is risky due to potentially irreversible changes. Existing benchmarks rely on simplified environments and fail to capture realistic, stateful, multi-service workflows. We introduce ClawsBench, a benchmark for evaluating and improving LLM agents in realistic productivity settings. It includes five high-fidelity mock services (Gmail, Slack, Google Calendar, Google Docs, Google Drive) with full state management and deterministic snapshot/restore, along with 44 structured tasks covering single-service, cross-service, and safety-critical scenarios. We decompose agent scaffolding into two independent levers (domain skills that inject API knowledge via progressive disclosure, and a meta prompt that coordinates behavior across services) and vary both to measure their separate and combined effects. Experiments across 6 models, 4 agent harnesses, and 33 conditions show that with full scaffolding, agents achieve task success rates of 39-64% but exhibit unsafe action rates of 7-33%. On OpenClaw, the top five models fall within a 10 percentage-point band on task success (53-63%), with unsafe action rates from 7% to 23% and no consistent ordering between the two metrics. We identify eight recurring patterns of unsafe behavior, including multi-step sandbox escalation and silent contract modification.

ClawsBench: Evaluación de Capacidades y Seguridad de Agentes de Productividad con LLM en Espacios de Trabajo Simulados

ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces

Resumen

Support