ChatPaper.aiChatPaper

Claw-Eval: Rumo a uma Avaliação Confiável de Agentes Autônomos

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

April 7, 2026
Autores: Bowen Ye, Rang Li, Qibin Yang, Yuanxin Liu, Linli Yao, Hanglong Lv, Zhihui Xie, Chenxin An, Lei Li, Lingpeng Kong, Qi Liu, Zhifang Sui, Tong Yang
cs.AI

Resumo

Os modelos de linguagem de grande porte estão sendo cada vez mais implantados como agentes autônomos que executam fluxos de trabalho multi-etapa em ambientes de software do mundo real. No entanto, os benchmarks existentes para agentes apresentam três limitações críticas: (1) avaliação opaca de trajetórias que verifica apenas os resultados finais, (2) subespecificação da avaliação de segurança e robustez, e (3) cobertura modal e paradigmas de interação limitados. Apresentamos o Claw-Eval, um conjunto de avaliação end-to-end que aborda todas as três lacunas. Ele compreende 300 tarefas verificadas por humanos, abrangendo 9 categorias em três grupos (orquestração geral de serviços, percepção e geração multimodal, e diálogo profissional multi-turno). Cada ação do agente é registrada através de três canais independentes de evidência (traços de execução, logs de auditoria e capturas de estado do ambiente), permitindo uma avaliação consciente da trajetória com base em 2.159 critérios de avaliação refinados. O protocolo de pontuação avalia Conclusão, Segurança e Robustez, reportando Pontuação Média, Pass@k e Pass^k em três tentativas para distinguir capacidade genuína de resultados fortuitos. Experimentos com 14 modelos de fronteira revelam que: (1) a avaliação opaca de trajetórias é sistematicamente não confiável, deixando de capturar 44% das violações de segurança e 13% das falhas de robustez que nosso pipeline híbrido identifica; (2) a injeção controlada de erros degrada primariamente a consistência em vez do pico de capacidade, com o Pass^k caindo até 24% enquanto o Pass@k permanece estável; (3) o desempenho multimodal varia drasticamente, com a maioria dos modelos apresentando desempenho inferior em vídeo comparado a documento ou imagem, e nenhum modelo único se destacando em todas as modalidades. Para além da avaliação comparativa, o Claw-Eval destaca direções acionáveis para o desenvolvimento de agentes, lançando luz sobre o que é necessário para construir agentes que não são apenas capazes, mas também confiáveis para implantação.
English
Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.
PDF953April 9, 2026