OpenComputer: Verifieerbare softwarewerelden voor computergebruikagenten

Samenvatting

We presenteren OpenComputer, een op verificateurs gebaseerd raamwerk voor het bouwen van verifieerbare softwarewerelden voor computergebruikende agenten. OpenComputer integreert vier componenten: (1) app-specifieke toestandsverificateurs die gestructureerde inspectie-eindpunten blootleggen over echte applicaties, (2) een zelf-evoluerende verificatielaag die de betrouwbaarheid van verificateurs verbetert met behulp van uitvoeringsgebaseerde feedback, (3) een taakgeneratiepijplijn die realistische en machinaal controleerbare bureaubladtaken synthetiseert, en (4) een evaluatie-opstelling die volledige trajecten registreert en controleerbare gedeeltelijke beloningen berekent. In zijn huidige vorm dekt OpenComputer 33 bureaubladtoepassingen en 1.000 definitieve taken, verspreid over browsers, kantoortools, creatieve software, ontwikkelomgevingen, bestandsbeheerders en communicatieapplicaties. Experimenten tonen aan dat de hardgecodeerde verificateurs van OpenComputer nauwer aansluiten bij menselijke beoordeling dan LLM-als-beoordelaar-evaluatie, vooral wanneer het succes afhangt van fijnmazige applicatietoestanden. Geavanceerde agenten worstelen met end-to-end voltooiing ondanks gedeeltelijke vooruitgang, en open-source modellen vertonen scherpe dalingen ten opzichte van hun OSWorld-Verified-scores, wat een aanhoudende kloof in robuuste computerautomatisering blootlegt.

English

We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.