MyPCBench: Un Benchmark para Agentes de Uso de Computadora Inteligentes y Personales

Resumen

Los benchmarks actuales para agentes de uso computacional evalúan modelos en entornos impersonales. Esto deja una brecha entre la evaluación y el despliegue, donde se espera que los asistentes personales trabajen en la totalidad de la vida digital del usuario, incluyendo su contexto, datos históricos y cuentas iniciadas. Esta brecha es más amplia en tareas web, donde las evaluaciones en vivo no pueden ejercitar sitios que requieren inicio de sesión o información personal, el tipo de sitio que un asistente personal real debe manejar. Presentamos MyPCBench, que prueba agentes de uso computacional como asistentes personales en un escritorio Linux poblado con 17 aplicaciones web simuladas del mundo real y una pila de escritorio completa, todas sembradas para una persona canónica, Michael Scott de The Office. Definimos 184 tareas en este entorno, cada una inspirada en una solicitud real extraída de la comunidad OpenClaw, y evaluamos seis modelos cerrados y de peso abierto con una superficie de herramientas uniforme de computadora+bash. Encontramos que el mejor modelo, Claude Opus 4.6, resuelve completamente el 55.4% de las tareas, el único modelo por encima del 50%. Los fallos de los modelos se agrupan en tareas que abarcan muchas aplicaciones y en trayectorias largas, donde la personalización exige más al asistente. Publicamos el entorno, el conjunto de tareas y el arnés de agente en https://mypcbench.com.

English

Current benchmarks for computer-use agents evaluate models in impersonal environments. This leaves a gap between evaluation and deployment where personal assistants are expected to work across a user's whole digital life, including their context, historical data, and logged-in accounts. This gap is widest on web tasks, where live web evaluations cannot exercise sites that require logging in or personal information, the kind of site a real personal assistant has to drive. We introduce MyPCBench, which tests computer-use agents as personal assistants on a Linux desktop populated with 17 simulated real-world web applications and a full desktop stack, all seeded for one canonical persona, Michael Scott from The Office. We define 184 tasks in this environment, each inspired by a real request drawn from the OpenClaw community, and benchmark six closed and open-weight models with a uniform computer+bash tool surface. We find that the best model, Claude Opus 4.6, fully solves 55.4\% of the tasks, the only model above 50\%. Model failures cluster on tasks that span many applications and on long trajectories, where personalization stresses an assistant the most. We release the environment, task set, and agent harness at https://mypcbench.com.