Claw-Eval: Rumo a uma Avaliação Confiável de Agentes Autônomos

Resumo

Os modelos de linguagem de grande porte estão sendo cada vez mais implantados como agentes autônomos que executam fluxos de trabalho multi-etapa em ambientes de software do mundo real. No entanto, os benchmarks existentes para agentes apresentam três limitações críticas: (1) avaliação opaca de trajetórias que verifica apenas os resultados finais, (2) subespecificação da avaliação de segurança e robustez, e (3) cobertura modal e paradigmas de interação limitados. Apresentamos o Claw-Eval, um conjunto de avaliação end-to-end que aborda todas as três lacunas. Ele compreende 300 tarefas verificadas por humanos, abrangendo 9 categorias em três grupos (orquestração geral de serviços, percepção e geração multimodal, e diálogo profissional multi-turno). Cada ação do agente é registrada através de três canais independentes de evidência (traços de execução, logs de auditoria e capturas de estado do ambiente), permitindo uma avaliação consciente da trajetória com base em 2.159 critérios de avaliação refinados. O protocolo de pontuação avalia Conclusão, Segurança e Robustez, reportando Pontuação Média, Pass@k e Pass^k em três tentativas para distinguir capacidade genuína de resultados fortuitos. Experimentos com 14 modelos de fronteira revelam que: (1) a avaliação opaca de trajetórias é sistematicamente não confiável, deixando de capturar 44% das violações de segurança e 13% das falhas de robustez que nosso pipeline híbrido identifica; (2) a injeção controlada de erros degrada primariamente a consistência em vez do pico de capacidade, com o Pass^k caindo até 24% enquanto o Pass@k permanece estável; (3) o desempenho multimodal varia drasticamente, com a maioria dos modelos apresentando desempenho inferior em vídeo comparado a documento ou imagem, e nenhum modelo único se destacando em todas as modalidades. Para além da avaliação comparativa, o Claw-Eval destaca direções acionáveis para o desenvolvimento de agentes, lançando luz sobre o que é necessário para construir agentes que não são apenas capazes, mas também confiáveis para implantação.

English

Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.

Claw-Eval: Rumo a uma Avaliação Confiável de Agentes Autônomos

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Resumo

Support