WildClawBench: Um Benchmark para Avaliação de Agentes em Longo Horizonte no Mundo Real

Resumo

Modelos de linguagem ampla e de visão-linguagem estão cada vez mais alimentando agentes que atuam em nome de um usuário por meio de interfaces de linha de comando (CLI). No entanto, a maioria dos benchmarks para agentes ainda depende de sandboxes sintéticos, tarefas de horizonte curto, APIs de serviço simuladas e verificações de resposta final, deixando em aberto se os agentes conseguem concluir trabalhos realistas de horizonte longo nos ambientes de execução onde são implantados. Este trabalho apresenta o WildClawBench, um benchmark de ambiente nativo composto por 60 tarefas bilíngues, multimodais e escritas por humanos, abrangendo seis categorias temáticas. Cada tarefa leva em média cerca de 8 minutos de tempo real de execução e mais de 20 chamadas de ferramentas, sendo executada dentro de um contêiner Docker reproduzível que hospeda um harness real de agente CLI (OpenClaw, Claude Code, Codex ou Hermes Agent) com acesso a ferramentas reais, em vez de serviços simulados. A avaliação é híbrida, combinando verificações determinísticas baseadas em regras, auditoria de estado do ambiente quanto a efeitos colaterais e um juiz LLM/VLM para verificação semântica. Entre 19 modelos de fronteira, o melhor, Claude Opus 4.7, atinge apenas 62,2% geral no OpenClaw, enquanto todos os outros modelos ficam abaixo de 60%, e a simples troca de harness altera um único modelo em até 18 pontos percentuais. Esses resultados mostram que a avaliação de agentes em horizonte longo e ambiente nativo ainda é uma tarefa longe de estar resolvida para os modelos de fronteira atuais. Disponibilizamos as tarefas, o código e as ferramentas conteinerizadas para apoiar a avaliação reproduzível.

English

Large language and vision-language models increasingly power agents that act on a user's behalf through command-line interface (CLI) harnesses. However, most agent benchmarks still rely on synthetic sandboxes, short-horizon tasks, mock-service APIs, and final-answer checks, leaving open whether agents can complete realistic long-horizon work in the runtimes where they are deployed. This work presents WildClawBench, a native-runtime benchmark of 60 human-authored, bilingual, multimodal tasks spanning six thematic categories. Each task averages roughly 8 minutes of wall-clock time and over 20 tool calls, and runs inside a reproducible Docker container hosting an actual CLI agent harness (OpenClaw, Claude Code, Codex, or Hermes Agent) with access to real tools rather than mock services. Grading is hybrid, combining deterministic rule-based checks, environment-state auditing of side effects, and an LLM/VLM judge for semantic verification. Across 19 frontier models, the best, Claude Opus 4.7, reaches only 62.2% overall under OpenClaw, while every other model stays below 60%, and switching harness alone shifts a single model by up to 18 points. These results show that long-horizon, native-runtime agent evaluation remains a far-from-resolved task for current frontier models. We release the tasks, code, and containerized tooling to support reproducible evaluation.