WildClawBench: een benchmark voor realistische evaluatie van agenten met een lange horizon

Samenvatting

Grote taal- en visie-taalmodelen drijven steeds vaker agents aan die namens een gebruiker handelen via commandoregelinterface (CLI)-harnassen. De meeste agent-benchmarks vertrouwen echter nog steeds op synthetische sandboxen, taken met een korte horizon, mock-service-API's en controles op het uiteindelijke antwoord, waardoor de vraag open blijft of agents realistisch langdurig werk kunnen voltooien in de runtime-omgevingen waarin ze worden ingezet. Dit werk presenteert WildClawBench, een native-runtime benchmark van 60 door mensen geschreven, tweetalige, multimodale taken die zes thematische categorieën bestrijken. Elke taak duurt gemiddeld ongeveer 8 minuten werkelijke tijd en meer dan 20 toolaanroepen, en wordt uitgevoerd in een reproduceerbare Docker-container die een echt CLI-agentharnas (OpenClaw, Claude Code, Codex of Hermes Agent) herbergt, met toegang tot echte tools in plaats van mock-diensten. De beoordeling is hybride en combineert deterministische regelgebaseerde controles, audits van de omgevingstoestand voor neveneffecten, en een LLM/VLM-beoordelaar voor semantische verificatie. Over 19 grensverleggende modellen bereikt het beste, Claude Opus 4.7, slechts 62,2% totaal onder OpenClaw, terwijl elk ander model onder de 60% blijft, en alleen al het wisselen van harnas verschuift een enkel model met maximaal 18 punten. Deze resultaten tonen aan dat evaluatie van agents met een lange horizon in native runtime nog steeds een verre van opgeloste taak is voor de huidige grensverleggende modellen. We geven de taken, code en gecontaineriseerde tooling vrij ter ondersteuning van reproduceerbare evaluatie.

English

Large language and vision-language models increasingly power agents that act on a user's behalf through command-line interface (CLI) harnesses. However, most agent benchmarks still rely on synthetic sandboxes, short-horizon tasks, mock-service APIs, and final-answer checks, leaving open whether agents can complete realistic long-horizon work in the runtimes where they are deployed. This work presents WildClawBench, a native-runtime benchmark of 60 human-authored, bilingual, multimodal tasks spanning six thematic categories. Each task averages roughly 8 minutes of wall-clock time and over 20 tool calls, and runs inside a reproducible Docker container hosting an actual CLI agent harness (OpenClaw, Claude Code, Codex, or Hermes Agent) with access to real tools rather than mock services. Grading is hybrid, combining deterministic rule-based checks, environment-state auditing of side effects, and an LLM/VLM judge for semantic verification. Across 19 frontier models, the best, Claude Opus 4.7, reaches only 62.2% overall under OpenClaw, while every other model stays below 60%, and switching harness alone shifts a single model by up to 18 points. These results show that long-horizon, native-runtime agent evaluation remains a far-from-resolved task for current frontier models. We release the tasks, code, and containerized tooling to support reproducible evaluation.