MyPCBench: Бенчмарк для персональных интеллектуальных агентов управления компьютером

Аннотация

Современные бенчмарки для агентов, использующих компьютер, оценивают модели в безличных средах. Это создаёт разрыв между оценкой и развёртыванием, где предполагается, что персональные ассистенты будут работать во всей цифровой жизни пользователя, включая его контекст, исторические данные и учётные записи, в которые он вошёл. Этот разрыв наиболее заметен в веб-задачах: «живые» веб-оценки не могут задействовать сайты, требующие входа в систему или личной информации, — то есть те сайты, с которыми реальному персональному ассистенту приходится работать. Мы представляем MyPCBench — тест, проверяющий агентов компьютерного использования как персональных ассистентов на Linux-рабочем столе, населённом 17 симулированными реальными веб-приложениями и полным набором компонентов рабочего стола, и всё это инициализировано для одной канонической персоны — Майкла Скотта из сериала «Офис». В этой среде мы определили 184 задачи, каждая из которых вдохновлена реальным запросом из сообщества OpenClaw, и провели бенчмаркинг шести закрытых моделей и моделей с открытыми весами, используя единый инструментарий «компьютер + bash». Мы обнаружили, что лучшая модель, Claude Opus 4.6, полностью решает 55,4% задач — это единственная модель, показатель которой превышает 50%. Неудачи моделей сосредоточены на задачах, охватывающих множество приложений, и на длинных траекториях, где персонализация сильнее всего нагружает ассистента. Мы публикуем среду, набор задач и инструментарий для агентов по адресу https://mypcbench.com.

English

Current benchmarks for computer-use agents evaluate models in impersonal environments. This leaves a gap between evaluation and deployment where personal assistants are expected to work across a user's whole digital life, including their context, historical data, and logged-in accounts. This gap is widest on web tasks, where live web evaluations cannot exercise sites that require logging in or personal information, the kind of site a real personal assistant has to drive. We introduce MyPCBench, which tests computer-use agents as personal assistants on a Linux desktop populated with 17 simulated real-world web applications and a full desktop stack, all seeded for one canonical persona, Michael Scott from The Office. We define 184 tasks in this environment, each inspired by a real request drawn from the OpenClaw community, and benchmark six closed and open-weight models with a uniform computer+bash tool surface. We find that the best model, Claude Opus 4.6, fully solves 55.4\% of the tasks, the only model above 50\%. Model failures cluster on tasks that span many applications and on long trajectories, where personalization stresses an assistant the most. We release the environment, task set, and agent harness at https://mypcbench.com.