Claw-Eval: На пути к надежной оценке автономных агентов

Аннотация

Крупные языковые модели всё чаще развертываются в качестве автономных агентов, выполняющих многошаговые рабочие процессы в реальных программных средах. Однако существующие бенчмарки для агентов страдают от трех критических ограничений: (1) непрозрачная оценка траекторий, проверяющая только конечные результаты, (2) неполноценная оценка безопасности и устойчивости и (3) узкий охват модальностей и парадигм взаимодействия. Мы представляем Claw-Eval — сквозной набор для оценки, устраняющий все три пробела. Он включает 300 верифицированных человеком задач, охватывающих 9 категорий в трех группах (оркестровка общих сервисов, мультимодальное восприятие и генерация, многоходовый профессиональный диалог). Каждое действие агента фиксируется через три независимых канала доказательств (трассы выполнения, журналы аудита и снимки среды), что позволяет проводить оценку с учетом траектории по 2159 детализированным критериям. Протокол оценивания включает Завершенность, Безопасность и Устойчивость, рассчитывая Средний балл, Pass@k и Pass^k по трем попыткам для различения истинной способности и случайных успехов. Эксперименты с 14 передовыми моделями показывают, что: (1) оценка без учета траектории систематически ненадежна, пропуская 44% нарушений безопасности и 13% сбоев устойчивости, которые выявляет наш гибридный подход; (2) контролируемая инъекция ошибок в первую очередь снижает согласованность, а не пиковую способность, с падением Pass^3 до 24% при стабильном Pass@3; (3) мультимодальная производительность резко варьируется — большинство моделей работают с видео хуже, чем с документами или изображениями, и ни одна модель не доминирует во всех модальностях. Помимо бенчмаркинга, Claw-Eval указывает практические направления развития агентов, проясняя, что требуется для создания агентов, которые не только способны, но и надежно развертываемы.

English

Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.

Claw-Eval: На пути к надежной оценке автономных агентов

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Аннотация

Support