Claw-SWE-Bench: Ein Benchmark zur Bewertung von OpenClaw-artigen Agenten-Frameworks für Programmieraufgaben
Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks
June 10, 2026
Autoren: Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang
cs.AI
Zusammenfassung
Allzweck-Agenten wie OpenClaw werden zunehmend als autonome Werkzeugnutzer eingesetzt, doch ihre Programmierfähigkeit lässt sich unter SWE-bench nur schwer messen: Ein generischer Agent erfüllt von sich aus nicht den sauberen Docker-Arbeitsbereich, den Patch und den Vorhersagevertrag, die für die Bewertung erforderlich sind. Wir stellen Claw-SWE-Bench vor, einen mehrsprachigen SWE-bench-artigen Benchmark und Adapter-Protokoll, das heterogene Agent-Harnesses (sogenannte Claws) unter fairen Bedingungen vergleichbar macht, einschließlich eines festgelegten Prompts, Laufzeitbudgets, Arbeitsbereichsvertrags, Patchextraktionsverfahrens und Evaluators. Der vollständige Benchmark umfasst 350 GitHub-Issue-Lösungsinstanzen in 8 Sprachen und 43 Repositorys, die aus SWE-bench-Multilingual und SWE-bench-Verified-Mini nach einer Bereinigung um zukünftige Commits stammen. Wir veröffentlichen außerdem Claw-SWE-Bench Lite für eine schnellere Validierung – eine Teilmenge von 80 Instanzen, die durch ein kostenbewusstes, rangbewusstes Verfahren über 17 Kalibrierungsspalten ausgewählt wurde. Im vollständigen Benchmark erreicht OpenClaw mit einem minimalen Direct-Diff-Adapter nur 19,1 % Pass@1, während der vollständige Adapter mit dem gleichen GLM 5.1-Backbone 73,4 % erreicht – was zeigt, dass das Adapter-Design entscheidend ist, um OpenClaw-artige Harnesses für Programmieraufgaben effektiv zu befähigen. Über einen OpenClaw-mal-neun-Modell-Durchlauf und einen Fünf-Claw-mal-zwei-Modell-Durchlauf hinweg ändert die Modellwahl Pass@1 um 29,4 Prozentpunkte und die Harness-Wahl um 27,4 Prozentpunkte bei festen Modellen; Systeme mit ähnlicher Genauigkeit können sich in den gesamten API-Kosten erheblich unterscheiden. Claw-SWE-Bench behandelt daher Harness- und Kostenabrechnung als erstklassige Achsen der SWE-artigen Bewertung von Programmieragenten und bietet sowohl einen vollständigen Benchmark als auch einen kostengünstigen Referenzsatz für reproduzierbare Vergleiche. Die Daten sind verfügbar unter https://github.com/opensquilla/claw-swe-bench und https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.
English
General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-Bench, a multilingual SWE-bench-style benchmark and adapter protocol that makes heterogeneous agent harnesses, or claws, comparable under fair settings including a fixed prompt, runtime budget, workspace contract, patch extraction procedure, and evaluator. The full benchmark contains 350 GitHub issue-resolution instances across 8 languages and 43 repositories, drawn from SWE-bench-Multilingual and SWE-bench-Verified-Mini after future-commit cleanup. We also release Claw-SWE-Bench Lite for faster validation, which is an 80-instance subset selected by a cost-aware, rank-aware procedure over 17 calibration columns. On the full benchmark, OpenClaw with a minimal direct-diff adapter scores only 19.1% Pass@1, whereas the full adapter reaches 73.4% with the same GLM 5.1 backbone, showing that adapter design is essential for enabling OpenClaw-style harnesses to perform coding tasks effectively. Across an OpenClaw times nine-model sweep and a five-claw times two-model sweep, model choice changes Pass@1 by 29.4 pp and harness choice by 27.4 pp under fixed models; systems with similar accuracy can differ substantially in total API cost. Claw-SWE-Bench therefore treats harness and cost accounting as first-class axes of SWE-style coding-agent evaluation, providing both a full benchmark and a low-cost reference set for reproducible comparison. The data is available at https://github.com/opensquilla/claw-swe-bench and https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.