MyPCBench: een benchmark voor persoonlijk intelligente computergebruikagenten

Samenvatting

Huidige benchmarks voor computergebruikagenten evalueren modellen in onpersoonlijke omgevingen. Dit laat een kloof tussen evaluatie en implementatie, waar persoonlijke assistenten worden verwacht te werken over het hele digitale leven van een gebruiker, inclusief hun context, historische gegevens en ingelogde accounts. Deze kloof is het grootst bij webtaken, waar live web-evaluaties geen sites kunnen testen die inloggen of persoonlijke informatie vereisen, het soort site dat een echte persoonlijke assistent moet bedienen. We introduceren MyPCBench, dat computergebruikagenten test als persoonlijke assistenten op een Linux-desktop met 17 gesimuleerde realistische webapplicaties en een volledige desktopstack, allemaal ingezaaid voor één canonieke persona: Michael Scott uit The Office. We definiëren 184 taken in deze omgeving, elk geïnspireerd door een echt verzoek uit de OpenClaw-gemeenschap, en benchmarken zes gesloten en opengewichtmodellen met een uniforme computer+bash tool-interface. We vinden dat het beste model, Claude Opus 4.6, 55,4% van de taken volledig oplost, het enige model boven de 50%. Modelmislukkingen clusteren op taken die veel applicaties overspannen en op lange trajecten, waar personalisatie een assistent het meest onder druk zet. We geven de omgeving, takenverzameling en het agentharnas vrij op https://mypcbench.com.

English

Current benchmarks for computer-use agents evaluate models in impersonal environments. This leaves a gap between evaluation and deployment where personal assistants are expected to work across a user's whole digital life, including their context, historical data, and logged-in accounts. This gap is widest on web tasks, where live web evaluations cannot exercise sites that require logging in or personal information, the kind of site a real personal assistant has to drive. We introduce MyPCBench, which tests computer-use agents as personal assistants on a Linux desktop populated with 17 simulated real-world web applications and a full desktop stack, all seeded for one canonical persona, Michael Scott from The Office. We define 184 tasks in this environment, each inspired by a real request drawn from the OpenClaw community, and benchmark six closed and open-weight models with a uniform computer+bash tool surface. We find that the best model, Claude Opus 4.6, fully solves 55.4\% of the tasks, the only model above 50\%. Model failures cluster on tasks that span many applications and on long trajectories, where personalization stresses an assistant the most. We release the environment, task set, and agent harness at https://mypcbench.com.