Claw-SWE-Bench: Un punto de referencia para evaluar plataformas de agentes tipo OpenClaw en tareas de codificación.

Resumen

Agentes de propósito general como OpenClaw se utilizan cada vez más como usuarios autónomos de herramientas, pero su capacidad de codificación es difícil de medir bajo SWE-bench: un agente genérico por sí solo no cumple con el contrato de espacio de trabajo Docker limpio, parche y predicción requerido para la puntuación. Presentamos Claw-SWE-Bench, un punto de referencia multilingüe al estilo de SWE-bench y un protocolo adaptador que hace comparables arneses de agentes heterogéneos, o claws, bajo condiciones justas que incluyen un prompt fijo, presupuesto de tiempo de ejecución, contrato de espacio de trabajo, procedimiento de extracción de parches y evaluador. El punto de referencia completo contiene 350 instancias de resolución de issues de GitHub en 8 idiomas y 43 repositorios, extraídas de SWE-bench-Multilingual y SWE-bench-Verified-Mini tras la limpieza de commits futuros. También publicamos Claw-SWE-Bench Lite para una validación más rápida, un subconjunto de 80 instancias seleccionado mediante un procedimiento consciente de costos y rango sobre 17 columnas de calibración. En el punto de referencia completo, OpenClaw con un adaptador de diff directo mínimo obtiene solo un 19.1% de Pass@1, mientras que el adaptador completo alcanza el 73.4% con el mismo backbone GLM 5.1, lo que demuestra que el diseño del adaptador es esencial para que los arneses al estilo OpenClaw realicen tareas de codificación de manera efectiva. En un barrido de OpenClaw por nueve modelos y un barrido de cinco claws por dos modelos, la elección del modelo cambia Pass@1 en 29.4 pp y la elección del arnés en 27.4 pp bajo modelos fijos; sistemas con precisión similar pueden diferir sustancialmente en el costo total de API. Por lo tanto, Claw-SWE-Bench trata el arnés y la contabilidad de costos como ejes de primera clase en la evaluación de agentes de codificación al estilo SWE, proporcionando tanto un punto de referencia completo como un conjunto de referencia de bajo costo para una comparación reproducible. Los datos están disponibles en https://github.com/opensquilla/claw-swe-bench y https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.

English

General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-Bench, a multilingual SWE-bench-style benchmark and adapter protocol that makes heterogeneous agent harnesses, or claws, comparable under fair settings including a fixed prompt, runtime budget, workspace contract, patch extraction procedure, and evaluator. The full benchmark contains 350 GitHub issue-resolution instances across 8 languages and 43 repositories, drawn from SWE-bench-Multilingual and SWE-bench-Verified-Mini after future-commit cleanup. We also release Claw-SWE-Bench Lite for faster validation, which is an 80-instance subset selected by a cost-aware, rank-aware procedure over 17 calibration columns. On the full benchmark, OpenClaw with a minimal direct-diff adapter scores only 19.1% Pass@1, whereas the full adapter reaches 73.4% with the same GLM 5.1 backbone, showing that adapter design is essential for enabling OpenClaw-style harnesses to perform coding tasks effectively. Across an OpenClaw times nine-model sweep and a five-claw times two-model sweep, model choice changes Pass@1 by 29.4 pp and harness choice by 27.4 pp under fixed models; systems with similar accuracy can differ substantially in total API cost. Claw-SWE-Bench therefore treats harness and cost accounting as first-class axes of SWE-style coding-agent evaluation, providing both a full benchmark and a low-cost reference set for reproducible comparison. The data is available at https://github.com/opensquilla/claw-swe-bench and https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.