ChatPaper.aiChatPaper

Claw-Eval-Live: Бенчмарк для живых агентов, оценивающий эволюционирующие рабочие процессы в реальном мире

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

April 30, 2026
Авторы: Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li, Lei Li, Benyou Wang, Yixuan Yuan
cs.AI

Аннотация

Ожидается, что LLM-агенты будут выполнять сквозные единицы работы в различных программных инструментах, бизнес-сервисах и локальных рабочих пространствах. Однако многие бенчмарки для агентов фиксируют тщательно отобранный набор задач на момент выпуска и оценивают в основном итоговый ответ, что затрудняет оценку агентов в условиях меняющихся рабочих процессов и проверку фактического выполнения задачи. Мы представляем Claw-Eval-Live — динамичный бенчмарк для агентов рабочих процессов, который отделяет обновляемый сигнальный слой (актуализируемый между релизами на основе публичных сигналов спроса на рабочие процессы) от воспроизводимого, помеченного временными метками снимка релиза. Каждый релиз формируется на основе публичных сигналов спроса, с использованием Топ-500 навыков ClawHub для текущей версии, и материализуется в виде контролируемых задач с фиксированными окружениями, сервисами, рабочими пространствами и системами оценки. Для оценивания Claw-Eval-Live записывает трассировки выполнения, аудит-логи, состояние сервисов и артефакты рабочего пространства после прогона, применяя детерминированные проверки при достаточности доказательств и используя структурированное LLM-судейство только для семантических аспектов. Релиз включает 105 задач, охватывающих контролируемые бизнес-сервисы и восстановление локальных рабочих пространств, и оценивает 13 передовых моделей по единому публичному правилу прохождения. Эксперименты показывают, что надежная автоматизация рабочих процессов далека от решения: ведущая модель проходит только 66,7% задач, и ни одна модель не достигает 70%. Сбои структурированы по семействам задач и поверхностям выполнения, причем HR, управленческие и межсистемные бизнес-процессы остаются устойчивыми узкими местами, а восстановление локальных рабочих пространств относительно проще, но не насыщено. Ранжирование только по лидерборду недостаточно, поскольку модели с близкой долей прохождения могут значительно различаться по общей завершенности, а дискриминация на уровне задач концентрируется в среднем диапазоне сложности. Claw-Eval-Live указывает, что оценка агентов рабочих процессов должна быть двойственно обоснована — как актуальным внешним спросом, так и верифицируемыми действиями агента.
English
LLM agents are expected to complete end-to-end units of work across software tools, business services, and local workspaces. Yet many agent benchmarks freeze a curated task set at release time and grade mainly the final response, making it difficult to evaluate agents against evolving workflow demand or verify whether a task was executed. We introduce Claw-Eval-Live, a live benchmark for workflow agents that separates a refreshable signal layer, updated across releases from public workflow-demand signals, from a reproducible, time-stamped release snapshot. Each release is constructed from public workflow-demand signals, with ClawHub Top-500 skills used in the current release, and materialized as controlled tasks with fixed fixtures, services, workspaces, and graders. For grading, Claw-Eval-Live records execution traces, audit logs, service state, and post-run workspace artifacts, using deterministic checks when evidence is sufficient and structured LLM judging only for semantic dimensions. The release contains 105 tasks spanning controlled business services and local workspace repair, and evaluates 13 frontier models under a shared public pass rule. Experiments reveal that reliable workflow automation remains far from solved: the leading model passes only 66.7% of tasks and no model reaches 70%. Failures are structured by task family and execution surface, with HR, management, and multi-system business workflows as persistent bottlenecks and local workspace repair comparatively easier but unsaturated. Leaderboard rank alone is insufficient because models with similar pass rates can diverge in overall completion, and task-level discrimination concentrates in a middle band of tasks. Claw-Eval-Live suggests that workflow-agent evaluation should be grounded twice, in fresh external demand and in verifiable agent action.
PDF171May 2, 2026