Claw-SWE-Bench: бенчмарк для оценки агентных обвязок в стиле OpenClaw на задачах программирования.

Аннотация

Агенты общего назначения, такие как OpenClaw, все чаще используются как автономные пользователи инструментов, однако их способность к программированию трудно измерить в рамках SWE-bench: обычный агент сам по себе не удовлетворяет условиям чистого Docker-рабочего пространства, патча и контракта предсказаний, необходимым для оценки. Мы представляем Claw-SWE-Bench — многоязычный бенчмарк в стиле SWE-bench и протокол адаптера, который делает разнородные обвязки агентов, или claw-обвязки, сопоставимыми в условиях честных настроек, включая фиксированный промпт, бюджет времени выполнения, контракт рабочего пространства, процедуру извлечения патча и оценщик. Полный бенчмарк содержит 350 экземпляров решения проблем GitHub на 8 языках и 43 репозиториях, взятых из SWE-bench-Multilingual и SWE-bench-Verified-Mini после очистки от будущих коммитов. Мы также выпускаем Claw-SWE-Bench Lite для более быстрой валидации — подмножество из 80 экземпляров, отобранное с помощью процедуры, учитывающей затраты и ранжирование, по 17 калибровочным столбцам. На полном бенчмарке OpenClaw с минимальным адаптером прямого диффа (direct-diff) набирает лишь 19,1% Pass@1, тогда как полный адаптер достигает 73,4% с той же базовой моделью GLM 5.1, что показывает, что дизайн адаптера имеет решающее значение для того, чтобы обвязки стиля OpenClaw могли эффективно выполнять задачи программирования. При переборе OpenClaw по девяти моделям и переборе пяти claw-обвязок по двум моделям выбор модели меняет Pass@1 на 29,4 процентных пункта, а выбор обвязки — на 27,4 процентных пункта при фиксированных моделях; системы с похожей точностью могут существенно различаться по общей стоимости API. Таким образом, Claw-SWE-Bench рассматривает обвязку и учет затрат как первостепенные оси оценки агентов программирования в стиле SWE, предоставляя как полный бенчмарк, так и малозатратный эталонный набор для воспроизводимого сравнения. Данные доступны по адресам https://github.com/opensquilla/claw-swe-bench и https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.

English

General-purpose agents such as OpenClaw are increasingly used as autonomous tool users, but their coding ability is difficult to measure under SWE-bench: a generic agent does not by itself satisfy the clean Docker workspace, patch, and prediction contract required for scoring. We introduce Claw-SWE-Bench, a multilingual SWE-bench-style benchmark and adapter protocol that makes heterogeneous agent harnesses, or claws, comparable under fair settings including a fixed prompt, runtime budget, workspace contract, patch extraction procedure, and evaluator. The full benchmark contains 350 GitHub issue-resolution instances across 8 languages and 43 repositories, drawn from SWE-bench-Multilingual and SWE-bench-Verified-Mini after future-commit cleanup. We also release Claw-SWE-Bench Lite for faster validation, which is an 80-instance subset selected by a cost-aware, rank-aware procedure over 17 calibration columns. On the full benchmark, OpenClaw with a minimal direct-diff adapter scores only 19.1% Pass@1, whereas the full adapter reaches 73.4% with the same GLM 5.1 backbone, showing that adapter design is essential for enabling OpenClaw-style harnesses to perform coding tasks effectively. Across an OpenClaw times nine-model sweep and a five-claw times two-model sweep, model choice changes Pass@1 by 29.4 pp and harness choice by 27.4 pp under fixed models; systems with similar accuracy can differ substantially in total API cost. Claw-SWE-Bench therefore treats harness and cost accounting as first-class axes of SWE-style coding-agent evaluation, providing both a full benchmark and a low-cost reference set for reproducible comparison. The data is available at https://github.com/opensquilla/claw-swe-bench and https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.