WildClawBench: Бенчмарк для оценки агентов в реальных условиях с долгосрочным горизонтом

Аннотация

Крупные языковые модели и модели «язык-зрение» всё чаще используются в качестве агентов, действующих от имени пользователя через инструменты командной строки (CLI). Однако большинство бенчмарков для агентов по-прежнему опираются на синтетические песочницы, задачи с коротким горизонтом, имитируемые API-сервисы и проверку конечных ответов, оставляя открытым вопрос, способны ли агенты выполнять реалистичные долгосрочные задачи в средах, где они развёрнуты. В данной работе представлен WildClawBench — нативный бенчмарк, состоящий из 60 авторских двуязычных мультимодальных задач, охватывающих шесть тематических категорий. Каждая задача в среднем требует около 8 минут реального времени и более 20 вызовов инструментов, выполняясь внутри воспроизводимого Docker-контейнера, в котором работает реальный CLI-агент (OpenClaw, Claude Code, Codex или Hermes Agent) с доступом к настоящим инструментам, а не имитируемым сервисам. Оценка гибридная: сочетает детерминированные проверки на основе правил, аудит состояния среды на предмет побочных эффектов и судью на основе LLM/VLM для семантической верификации. Из 19 передовых моделей лучшая — Claude Opus 4.7 — достигает лишь 62,2% общего успеха в среде OpenClaw, тогда как все остальные модели остаются ниже 60%, а смена одной только платформы смещает результат одной модели до 18 пунктов. Эти результаты показывают, что оценка долгосрочной работы агентов в нативной среде остаётся далёкой от решения задачей для современных передовых моделей. Мы публикуем задачи, код и контейнеризированные инструменты для обеспечения воспроизводимой оценки.

English

Large language and vision-language models increasingly power agents that act on a user's behalf through command-line interface (CLI) harnesses. However, most agent benchmarks still rely on synthetic sandboxes, short-horizon tasks, mock-service APIs, and final-answer checks, leaving open whether agents can complete realistic long-horizon work in the runtimes where they are deployed. This work presents WildClawBench, a native-runtime benchmark of 60 human-authored, bilingual, multimodal tasks spanning six thematic categories. Each task averages roughly 8 minutes of wall-clock time and over 20 tool calls, and runs inside a reproducible Docker container hosting an actual CLI agent harness (OpenClaw, Claude Code, Codex, or Hermes Agent) with access to real tools rather than mock services. Grading is hybrid, combining deterministic rule-based checks, environment-state auditing of side effects, and an LLM/VLM judge for semantic verification. Across 19 frontier models, the best, Claude Opus 4.7, reaches only 62.2% overall under OpenClaw, while every other model stays below 60%, and switching harness alone shifts a single model by up to 18 points. These results show that long-horizon, native-runtime agent evaluation remains a far-from-resolved task for current frontier models. We release the tasks, code, and containerized tooling to support reproducible evaluation.