MyPCBench : un benchmark pour les agents intelligents d'utilisation personnelle d'ordinateur

Résumé

Les benchmarks actuels pour les agents d’utilisation d’ordinateur évaluent les modèles dans des environnements impersonnels. Cela crée un fossé entre l’évaluation et le déploiement, alors que les assistants personnels sont censés travailler sur l’ensemble de la vie numérique d’un utilisateur, y compris son contexte, ses données historiques et ses comptes connectés. Ce fossé est le plus marqué dans les tâches web, où les évaluations sur le web réel ne peuvent pas utiliser les sites nécessitant une connexion ou des informations personnelles — le type de site qu’un véritable assistant personnel doit piloter. Nous présentons MyPCBench, qui teste les agents d’utilisation d’ordinateur en tant qu’assistants personnels sur un bureau Linux peuplé de 17 applications web simulées et réalistes, ainsi que d’une pile de bureau complète, le tout initialisé pour un persona canonique : Michael Scott de *The Office*. Nous définissons 184 tâches dans cet environnement, chacune inspirée d’une requête réelle issue de la communauté OpenClaw, et nous évaluons six modèles fermés et à poids ouverts avec une surface d’outils uniforme combinant ordinateur et bash. Nous constatons que le meilleur modèle, Claude Opus 4.6, résout complètement 55,4 % des tâches, étant le seul modèle au‑dessus de 50 %. Les échecs des modèles se concentrent sur les tâches couvrant de nombreuses applications et sur les trajectoires longues, domaines où la personnalisation sollicite le plus un assistant. Nous publions l’environnement, l’ensemble des tâches et le harnais d’agent à l’adresse https://mypcbench.com.

English

Current benchmarks for computer-use agents evaluate models in impersonal environments. This leaves a gap between evaluation and deployment where personal assistants are expected to work across a user's whole digital life, including their context, historical data, and logged-in accounts. This gap is widest on web tasks, where live web evaluations cannot exercise sites that require logging in or personal information, the kind of site a real personal assistant has to drive. We introduce MyPCBench, which tests computer-use agents as personal assistants on a Linux desktop populated with 17 simulated real-world web applications and a full desktop stack, all seeded for one canonical persona, Michael Scott from The Office. We define 184 tasks in this environment, each inspired by a real request drawn from the OpenClaw community, and benchmark six closed and open-weight models with a uniform computer+bash tool surface. We find that the best model, Claude Opus 4.6, fully solves 55.4\% of the tasks, the only model above 50\%. Model failures cluster on tasks that span many applications and on long trajectories, where personalization stresses an assistant the most. We release the environment, task set, and agent harness at https://mypcbench.com.