WildClawBench: Un Benchmark para la Evaluación de Agentes a Largo Plazo en el Mundo Real

Resumen

Los modelos de lenguaje grandes y los modelos de lenguaje-visión impulsan cada vez más agentes que actúan en nombre de un usuario a través de entornos de interfaz de línea de comandos (CLI). Sin embargo, la mayoría de los puntos de referencia para agentes aún dependen de entornos sintéticos aislados, tareas de horizonte corto, API de servicios simulados y verificaciones de respuesta final, dejando abierta la cuestión de si los agentes pueden completar tareas realistas de horizonte largo en los entornos de ejecución donde se implementan. Este trabajo presenta WildClawBench, un punto de referencia en entorno de ejecución nativo que consta de 60 tareas bilingües, multimodales y redactadas por humanos, distribuidas en seis categorías temáticas. Cada tarea requiere en promedio aproximadamente 8 minutos de tiempo real y más de 20 llamadas a herramientas, y se ejecuta dentro de un contenedor Docker reproducible que aloja un entorno de agente CLI real (OpenClaw, Claude Code, Codex o Hermes Agent) con acceso a herramientas reales en lugar de servicios simulados. La evaluación es híbrida, combinando comprobaciones deterministas basadas en reglas, auditoría del estado del entorno para efectos secundarios y un juez LLM/VLM para verificación semántica. Entre 19 modelos de frontera, el mejor, Claude Opus 4.7, alcanza solo un 62.2% global bajo OpenClaw, mientras que todos los demás modelos se mantienen por debajo del 60%, y el simple cambio de entorno hace que un mismo modelo varíe hasta en 18 puntos. Estos resultados muestran que la evaluación de agentes en entorno de ejecución nativo con horizonte largo sigue siendo una tarea lejos de estar resuelta para los modelos de frontera actuales. Publicamos las tareas, el código y las herramientas contenerizadas para respaldar una evaluación reproducible.

English

Large language and vision-language models increasingly power agents that act on a user's behalf through command-line interface (CLI) harnesses. However, most agent benchmarks still rely on synthetic sandboxes, short-horizon tasks, mock-service APIs, and final-answer checks, leaving open whether agents can complete realistic long-horizon work in the runtimes where they are deployed. This work presents WildClawBench, a native-runtime benchmark of 60 human-authored, bilingual, multimodal tasks spanning six thematic categories. Each task averages roughly 8 minutes of wall-clock time and over 20 tool calls, and runs inside a reproducible Docker container hosting an actual CLI agent harness (OpenClaw, Claude Code, Codex, or Hermes Agent) with access to real tools rather than mock services. Grading is hybrid, combining deterministic rule-based checks, environment-state auditing of side effects, and an LLM/VLM judge for semantic verification. Across 19 frontier models, the best, Claude Opus 4.7, reaches only 62.2% overall under OpenClaw, while every other model stays below 60%, and switching harness alone shifts a single model by up to 18 points. These results show that long-horizon, native-runtime agent evaluation remains a far-from-resolved task for current frontier models. We release the tasks, code, and containerized tooling to support reproducible evaluation.