Claw-SWE-Bench: Ein Benchmark zur Bewertung von OpenClaw-artigen Agenten-Frameworks für Programmieraufgaben

Zusammenfassung

Allzweck-Agenten wie OpenClaw werden zunehmend als autonome Werkzeugnutzer eingesetzt, doch ihre Programmierfähigkeit lässt sich unter SWE-bench nur schwer messen: Ein generischer Agent erfüllt von sich aus nicht den sauberen Docker-Arbeitsbereich, den Patch und den Vorhersagevertrag, die für die Bewertung erforderlich sind. Wir stellen Claw-SWE-Bench vor, einen mehrsprachigen SWE-bench-artigen Benchmark und Adapter-Protokoll, das heterogene Agent-Harnesses (sogenannte Claws) unter fairen Bedingungen vergleichbar macht, einschließlich eines festgelegten Prompts, Laufzeitbudgets, Arbeitsbereichsvertrags, Patchextraktionsverfahrens und Evaluators. Der vollständige Benchmark umfasst 350 GitHub-Issue-Lösungsinstanzen in 8 Sprachen und 43 Repositorys, die aus SWE-bench-Multilingual und SWE-bench-Verified-Mini nach einer Bereinigung um zukünftige Commits stammen. Wir veröffentlichen außerdem Claw-SWE-Bench Lite für eine schnellere Validierung – eine Teilmenge von 80 Instanzen, die durch ein kostenbewusstes, rangbewusstes Verfahren über 17 Kalibrierungsspalten ausgewählt wurde. Im vollständigen Benchmark erreicht OpenClaw mit einem minimalen Direct-Diff-Adapter nur 19,1 % Pass@1, während der vollständige Adapter mit dem gleichen GLM 5.1-Backbone 73,4 % erreicht – was zeigt, dass das Adapter-Design entscheidend ist, um OpenClaw-artige Harnesses für Programmieraufgaben effektiv zu befähigen. Über einen OpenClaw-mal-neun-Modell-Durchlauf und einen Fünf-Claw-mal-zwei-Modell-Durchlauf hinweg ändert die Modellwahl Pass@1 um 29,4 Prozentpunkte und die Harness-Wahl um 27,4 Prozentpunkte bei festen Modellen; Systeme mit ähnlicher Genauigkeit können sich in den gesamten API-Kosten erheblich unterscheiden. Claw-SWE-Bench behandelt daher Harness- und Kostenabrechnung als erstklassige Achsen der SWE-artigen Bewertung von Programmieragenten und bietet sowohl einen vollständigen Benchmark als auch einen kostengünstigen Referenzsatz für reproduzierbare Vergleiche. Die Daten sind verfügbar unter https://github.com/opensquilla/claw-swe-bench und https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.

English

General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-Bench, a multilingual SWE-bench-style benchmark and adapter protocol that makes heterogeneous agent harnesses, or claws, comparable under fair settings including a fixed prompt, runtime budget, workspace contract, patch extraction procedure, and evaluator. The full benchmark contains 350 GitHub issue-resolution instances across 8 languages and 43 repositories, drawn from SWE-bench-Multilingual and SWE-bench-Verified-Mini after future-commit cleanup. We also release Claw-SWE-Bench Lite for faster validation, which is an 80-instance subset selected by a cost-aware, rank-aware procedure over 17 calibration columns. On the full benchmark, OpenClaw with a minimal direct-diff adapter scores only 19.1% Pass@1, whereas the full adapter reaches 73.4% with the same GLM 5.1 backbone, showing that adapter design is essential for enabling OpenClaw-style harnesses to perform coding tasks effectively. Across an OpenClaw times nine-model sweep and a five-claw times two-model sweep, model choice changes Pass@1 by 29.4 pp and harness choice by 27.4 pp under fixed models; systems with similar accuracy can differ substantially in total API cost. Claw-SWE-Bench therefore treats harness and cost accounting as first-class axes of SWE-style coding-agent evaluation, providing both a full benchmark and a low-cost reference set for reproducible comparison. The data is available at https://github.com/opensquilla/claw-swe-bench and https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.