WildClawBench: Ein Benchmark für realweltliche, langfristige Agentenbewertung

Zusammenfassung

Große Sprach- und Vision-Language-Modelle treiben zunehmend Agenten an, die im Auftrag eines Nutzers über Kommandozeilen-Schnittstellen (CLI) agieren. Die meisten Agenten-Benchmarks basieren jedoch weiterhin auf synthetischen Sandboxes, kurzfristigen Aufgaben, simulierten Service-APIs und finalen Antwortprüfungen, sodass unklar bleibt, ob Agenten realistische langfristige Arbeiten in den Laufzeitumgebungen, in denen sie eingesetzt werden, bewältigen können. Diese Arbeit stellt WildClawBench vor, einen nativen Laufzeit-Benchmark mit 60 von Menschen verfassten, zweisprachigen, multimodalen Aufgaben, die sechs thematische Kategorien abdecken. Jede Aufgabe benötigt im Durchschnitt etwa 8 Minuten Echtzeit und über 20 Werkzeugaufrufe und läuft in einem reproduzierbaren Docker-Container, der einen echten CLI-Agenten-Harness (OpenClaw, Claude Code, Codex oder Hermes Agent) mit Zugriff auf echte Werkzeuge (anstelle simulierter Dienste) beherbergt. Die Bewertung ist hybrid und kombiniert deterministische, regelbasierte Prüfungen, Umgebungszustands-Audits von Nebeneffekten sowie einen LLM/VLM-Bewerter zur semantischen Verifikation. Über 19 Spitzenmodelle hinweg erreicht das beste Modell, Claude Opus 4.7, unter OpenClaw lediglich 62,2% Gesamtergebnis, während jedes andere Modell unter 60% bleibt; allein der Wechsel des Harness verändert das Ergebnis eines einzelnen Modells um bis zu 18 Prozentpunkte. Diese Ergebnisse zeigen, dass die Bewertung langfristiger, nativer Laufzeit-Agenten für aktuelle Spitzenmodelle noch lange keine abgeschlossene Aufgabe ist. Wir veröffentlichen die Aufgaben, den Code und die containerisierten Werkzeuge, um reproduzierbare Evaluierungen zu unterstützen.

English

Large language and vision-language models increasingly power agents that act on a user's behalf through command-line interface (CLI) harnesses. However, most agent benchmarks still rely on synthetic sandboxes, short-horizon tasks, mock-service APIs, and final-answer checks, leaving open whether agents can complete realistic long-horizon work in the runtimes where they are deployed. This work presents WildClawBench, a native-runtime benchmark of 60 human-authored, bilingual, multimodal tasks spanning six thematic categories. Each task averages roughly 8 minutes of wall-clock time and over 20 tool calls, and runs inside a reproducible Docker container hosting an actual CLI agent harness (OpenClaw, Claude Code, Codex, or Hermes Agent) with access to real tools rather than mock services. Grading is hybrid, combining deterministic rule-based checks, environment-state auditing of side effects, and an LLM/VLM judge for semantic verification. Across 19 frontier models, the best, Claude Opus 4.7, reaches only 62.2% overall under OpenClaw, while every other model stays below 60%, and switching harness alone shifts a single model by up to 18 points. These results show that long-horizon, native-runtime agent evaluation remains a far-from-resolved task for current frontier models. We release the tasks, code, and containerized tooling to support reproducible evaluation.