ClawsBench: Оценка возможностей и безопасности агентов продуктивности на основе больших языковых моделей в симулированных рабочих пространствах

Аннотация

Агенты больших языковых моделей (LLM) все чаще применяются для автоматизации задач повышения продуктивности (например, работа с электронной почтой, планирование, управление документами), однако их оценка на реальных сервисах сопряжена с рисками из-за потенциально необратимых изменений. Существующие бенчмарки используют упрощенные среды и не отражают реалистичные, сохраняющие состояние рабочие процессы, задействующие несколько сервисов. Мы представляем ClawsBench — бенчмарк для оценки и улучшения LLM-агентов в реалистичных сценариях продуктивности. Он включает пять высокоточных имитационных сервисов (Gmail, Slack, Google Calendar, Google Docs, Google Drive) с полным управлением состоянием и детерминированными функциями создания снимков состояния и восстановления, а также 44 структурированных задачи, охватывающие сценарии работы с одним сервисом, несколькими сервисами и сценарии, критичные к безопасности. Мы декомпозируем каркас агента на два независимых рычага управления (доменные навыки, которые внедряют знание API через прогрессивное раскрытие, и мета-промпт, координирующий поведение между сервисами) и варьируем их для измерения раздельного и совокупного эффектов. Эксперименты с 6 моделями, 4 оболочками агентов и 33 условиями показывают, что при полном каркасе агенты достигают уровня успешного выполнения задач в 39–64%, но демонстрируют уровень небезопасных действий в 7–33%. На OpenClaw пять лучших моделей оказываются в диапазоне 10 процентных пунктов по успешности задач (53–63%), с уровнем небезопасных действий от 7% до 23% и без устойчивой корреляции между двумя метриками. Мы выявили восемь повторяющихся шаблонов небезопасного поведения, включая эскалацию привилегий в песочнице за несколько шагов и тихое изменение контракта.

English

Large language model (LLM) agents are increasingly deployed to automate productivity tasks (e.g., email, scheduling, document management), but evaluating them on live services is risky due to potentially irreversible changes. Existing benchmarks rely on simplified environments and fail to capture realistic, stateful, multi-service workflows. We introduce ClawsBench, a benchmark for evaluating and improving LLM agents in realistic productivity settings. It includes five high-fidelity mock services (Gmail, Slack, Google Calendar, Google Docs, Google Drive) with full state management and deterministic snapshot/restore, along with 44 structured tasks covering single-service, cross-service, and safety-critical scenarios. We decompose agent scaffolding into two independent levers (domain skills that inject API knowledge via progressive disclosure, and a meta prompt that coordinates behavior across services) and vary both to measure their separate and combined effects. Experiments across 6 models, 4 agent harnesses, and 33 conditions show that with full scaffolding, agents achieve task success rates of 39-64% but exhibit unsafe action rates of 7-33%. On OpenClaw, the top five models fall within a 10 percentage-point band on task success (53-63%), with unsafe action rates from 7% to 23% and no consistent ordering between the two metrics. We identify eight recurring patterns of unsafe behavior, including multi-step sandbox escalation and silent contract modification.

ClawsBench: Оценка возможностей и безопасности агентов продуктивности на основе больших языковых моделей в симулированных рабочих пространствах

ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces

Аннотация

Support