OpenComputer：面向计算机使用智能体的可验证软件世界

摘要

我们提出OpenComputer——一个基于验证器的框架，用于构建计算机操作智能体可验证的软件世界。OpenComputer整合了四个组件：(1)针对具体应用的狀態驗證器，可在真实应用中暴露结构化检查端点；(2)自我进化的验证层，利用执行反馈提升验证器可靠性；(3)任务生成流水线，综合生成现实且可机器检验的桌面任务；(4)评估工具链，记录完整轨迹并计算可审计的部分得分奖励。当前版本中，OpenComputer覆盖33个桌面应用及1000个最终任务，涵盖浏览器、办公工具、创意软件、开发环境、文件管理和通信应用。实验表明，OpenComputer的硬编码验证器相较于LLM评判模式更接近人类仲裁结果，尤其在成功取决于细粒度应用状态时。前沿智能体在端到端完成上表现困难，尽管能取得部分进展；而开源模型的表现较其OSWorld验证得分出现显著下滑，揭示出稳健计算机自动化领域持续存在的差距。

English

We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.