OpenComputer: コンピュータ利用エージェントのための検証可能なソフトウェア世界

要旨

本稿では、検証器に基づくフレームワーク「OpenComputer」を提案する。これは、コンピュータ操作エージェント向けに検証可能なソフトウェア環境を構築するためのものである。OpenComputerは以下の4つの要素を統合する。(1) 実アプリケーション上で構造化された検査エンドポイントを公開する、アプリ固有の状態検証器、(2) 実行に基づくフィードバックを活用して検証器の信頼性を向上させる自己進化型検証層、(3) 現実的かつ機械的に検証可能なデスクトップタスクを合成するタスク生成パイプライン、(4) 完全な軌跡を記録し、監査可能な部分点報酬を計算する評価ハーネス。現状のOpenComputerは、ブラウザ、オフィスツール、クリエイティブソフトウェア、開発環境、ファイルマネージャ、コミュニケーションアプリケーションにわたる33のデスクトップアプリケーションと1,000の最終化タスクをカバーしている。実験の結果、OpenComputerのハードコードされた検証器は、LLMを判断者とする評価よりも人間の判定とより密接に一致すること、特に成功が細かいアプリケーション状態に依存する場合にその傾向が顕著であることが示された。最先端のエージェントは部分的な進捗を示すもののエンドツーエンドの完了に苦戦しており、オープンソースモデルはOSWorld-Verifiedのスコアから急激な低下を示し、堅牢なコンピュータ自動化における持続的なギャップを明らかにしている。

English

We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.