Claw-SWE-Bench : un benchmark pour évaluer les harnais d'agents de type OpenClaw sur des tâches de codage

Résumé

Les agents généralistes comme OpenClaw sont de plus en plus utilisés comme utilisateurs d'outils autonomes, mais leur capacité de codage est difficile à mesurer dans le cadre de SWE-bench : un agent générique ne satisfait pas en soi le contrat propre d'espace de travail Docker, de correctif et de prédiction requis pour la notation. Nous présentons Claw-SWE-Bench, un benchmark de style SWE-bench multilingue et un protocole d'adaptateur qui rend comparables des harnais d'agents hétérogènes, ou "claws", dans des conditions équitables incluant une invite fixe, un budget d'exécution, un contrat d'espace de travail, une procédure d'extraction de correctif et un évaluateur. Le benchmark complet contient 350 instances de résolution de problèmes GitHub réparties sur 8 langues et 43 dépôts, issues de SWE-bench-Multilingual et SWE-bench-Verified-Mini après nettoyage des commits futurs. Nous publions également Claw-SWE-Bench Lite pour une validation plus rapide, un sous-ensemble de 80 instances sélectionné par une procédure sensible au coût et au rang sur 17 colonnes de calibration. Sur le benchmark complet, OpenClaw avec un adaptateur minimal de diff direct n'obtient qu'un score de 19,1% Pass@1, tandis que l'adaptateur complet atteint 73,4% avec le même socle GLM 5.1, ce qui montre que la conception de l'adaptateur est essentielle pour permettre aux harnais de type OpenClaw d'effectuer efficacement des tâches de codage. Lors d'une analyse sur neuf modèles pour OpenClaw et sur deux modèles pour cinq "claws", le choix du modèle modifie le Pass@1 de 29,4 points de pourcentage et le choix du harnais de 27,4 points de pourcentage pour des modèles fixes ; des systèmes ayant une précision similaire peuvent différer considérablement en coût API total. Claw-SWE-Bench traite donc le harnais et la comptabilité des coûts comme des axes de première classe de l'évaluation des agents de codage de style SWE, offrant à la fois un benchmark complet et un ensemble de référence à faible coût pour une comparaison reproductible. Les données sont disponibles à l'adresse https://github.com/opensquilla/claw-swe-bench et https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.

English

General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-Bench, a multilingual SWE-bench-style benchmark and adapter protocol that makes heterogeneous agent harnesses, or claws, comparable under fair settings including a fixed prompt, runtime budget, workspace contract, patch extraction procedure, and evaluator. The full benchmark contains 350 GitHub issue-resolution instances across 8 languages and 43 repositories, drawn from SWE-bench-Multilingual and SWE-bench-Verified-Mini after future-commit cleanup. We also release Claw-SWE-Bench Lite for faster validation, which is an 80-instance subset selected by a cost-aware, rank-aware procedure over 17 calibration columns. On the full benchmark, OpenClaw with a minimal direct-diff adapter scores only 19.1% Pass@1, whereas the full adapter reaches 73.4% with the same GLM 5.1 backbone, showing that adapter design is essential for enabling OpenClaw-style harnesses to perform coding tasks effectively. Across an OpenClaw times nine-model sweep and a five-claw times two-model sweep, model choice changes Pass@1 by 29.4 pp and harness choice by 27.4 pp under fixed models; systems with similar accuracy can differ substantially in total API cost. Claw-SWE-Bench therefore treats harness and cost accounting as first-class axes of SWE-style coding-agent evaluation, providing both a full benchmark and a low-cost reference set for reproducible comparison. The data is available at https://github.com/opensquilla/claw-swe-bench and https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.