OpenComputer : Mondes logiciels vérifiables pour agents d'utilisation d'ordinateurs

Résumé

Nous présentons OpenComputer, un cadre ancré sur des vérificateurs pour construire des mondes logiciels vérifiables pour des agents d'utilisation d'ordinateur. OpenComputer intègre quatre composants : (1) des vérificateurs d'état spécifiques aux applications qui exposent des points de terminaison d'inspection structurés sur des applications réelles, (2) une couche de vérification auto-évolutive qui améliore la fiabilité des vérificateurs en utilisant un retour fondé sur l'exécution, (3) un pipeline de génération de tâches qui synthétise des tâches de bureau réalistes et vérifiables par machine, et (4) un dispositif d'évaluation qui enregistre les trajectoires complètes et calcule des récompenses de crédit partiel auditable. Dans sa forme actuelle, OpenComputer couvre 33 applications de bureau et 1 000 tâches finalisées couvrant les navigateurs, les outils bureautiques, les logiciels créatifs, les environnements de développement, les gestionnaires de fichiers et les applications de communication. Les expériences montrent que les vérificateurs codés en dur d'OpenComputer s'alignent plus étroitement sur l'arbitrage humain que l'évaluation par LLM en tant que juge, en particulier lorsque le succès dépend de l'état d'application à grain fin. Les agents de pointe peinent à réaliser un achèvement de bout en bout malgré des progrès partiels, et les modèles open-source présentent des chutes brutales par rapport à leurs scores OSWorld-Verified, révélant un écart persistant dans l'automatisation informatique robuste.

English

We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.