MyPCBench: Um Benchmark para Agentes Inteligentes de Uso Pessoal do Computador

Resumo

Os benchmarks atuais para agentes de uso computacional avaliam modelos em ambientes impessoais. Isso cria uma lacuna entre a avaliação e a implementação, onde assistentes pessoais devem operar em toda a vida digital de um usuário, incluindo seu contexto, dados históricos e contas logadas. Essa lacuna é mais ampla em tarefas na web, onde avaliações ao vivo não conseguem exercitar sites que exigem login ou informações pessoais — o tipo de site que um assistente pessoal real precisa manipular. Apresentamos o MyPCBench, que testa agentes de uso computacional como assistentes pessoais em um desktop Linux equipado com 17 aplicações web simuladas do mundo real e uma pilha completa de desktop, todos configurados para uma persona canônica: Michael Scott, de The Office. Definimos 184 tarefas nesse ambiente, cada uma inspirada em uma solicitação real extraída da comunidade OpenClaw, e avaliamos seis modelos – fechados e de pesos abertos – com uma superfície de ferramentas uniforme de computador+bash. Constatamos que o melhor modelo, Claude Opus 4.6, resolve completamente 55,4% das tarefas, sendo o único modelo acima de 50%. As falhas dos modelos concentram-se em tarefas que abrangem muitas aplicações e em trajetórias longas, onde a personalização mais tensiona o assistente. Disponibilizamos o ambiente, o conjunto de tarefas e o harness do agente em https://mypcbench.com.

English

Current benchmarks for computer-use agents evaluate models in impersonal environments. This leaves a gap between evaluation and deployment where personal assistants are expected to work across a user's whole digital life, including their context, historical data, and logged-in accounts. This gap is widest on web tasks, where live web evaluations cannot exercise sites that require logging in or personal information, the kind of site a real personal assistant has to drive. We introduce MyPCBench, which tests computer-use agents as personal assistants on a Linux desktop populated with 17 simulated real-world web applications and a full desktop stack, all seeded for one canonical persona, Michael Scott from The Office. We define 184 tasks in this environment, each inspired by a real request drawn from the OpenClaw community, and benchmark six closed and open-weight models with a uniform computer+bash tool surface. We find that the best model, Claude Opus 4.6, fully solves 55.4\% of the tasks, the only model above 50\%. Model failures cluster on tasks that span many applications and on long trajectories, where personalization stresses an assistant the most. We release the environment, task set, and agent harness at https://mypcbench.com.