MyPCBench: Ein Benchmark für persönlich intelligente Computer-Nutzungs-Agenten

Zusammenfassung

Aktuelle Benchmarks für computerbasierte Agenten evaluieren Modelle in unpersönlichen Umgebungen. Dadurch entsteht eine Lücke zwischen Evaluierung und Einsatz, da persönliche Assistenten das gesamte digitale Leben eines Nutzers abdecken sollen, einschließlich seines Kontextes, historischer Daten und angemeldeter Konten. Diese Lücke ist bei Web-Aufgaben am größten, da Evaluierungen mit Live-Webseiten keine Seiten nutzen können, die eine Anmeldung oder persönliche Informationen erfordern – genau die Art von Seiten, die ein echter persönlicher Assistent bedienen muss. Wir stellen MyPCBench vor, das computerbasierte Agenten als persönliche Assistenten auf einem Linux-Desktop testet, der mit 17 simulierten realen Webanwendungen und einem vollständigen Desktop-Stack ausgestattet ist, alle für eine kanonische Persona eingerichtet: Michael Scott aus *The Office*. Wir definieren 184 Aufgaben in dieser Umgebung, jede inspiriert von einer echten Anfrage aus der OpenClaw-Community, und evaluieren sechs geschlossene und offene Modelle mit einer einheitlichen Computer+Bash-Werkzeugoberfläche. Wir stellen fest, dass das beste Modell, Claude Opus 4.6, 55,4 % der Aufgaben vollständig löst – das einzige Modell über 50 %. Modellfehler häufen sich bei Aufgaben, die viele Anwendungen umfassen, und bei langen Trajektorien, bei denen die Personalisierung einen Assistenten am stärksten fordert. Wir veröffentlichen die Umgebung, den Aufgabensatz und den Agenten-Harness unter https://mypcbench.com.

English

Current benchmarks for computer-use agents evaluate models in impersonal environments. This leaves a gap between evaluation and deployment where personal assistants are expected to work across a user's whole digital life, including their context, historical data, and logged-in accounts. This gap is widest on web tasks, where live web evaluations cannot exercise sites that require logging in or personal information, the kind of site a real personal assistant has to drive. We introduce MyPCBench, which tests computer-use agents as personal assistants on a Linux desktop populated with 17 simulated real-world web applications and a full desktop stack, all seeded for one canonical persona, Michael Scott from The Office. We define 184 tasks in this environment, each inspired by a real request drawn from the OpenClaw community, and benchmark six closed and open-weight models with a uniform computer+bash tool surface. We find that the best model, Claude Opus 4.6, fully solves 55.4\% of the tasks, the only model above 50\%. Model failures cluster on tasks that span many applications and on long trajectories, where personalization stresses an assistant the most. We release the environment, task set, and agent harness at https://mypcbench.com.