OpenComputer: Verifizierbare Softwarewelten für Computer-Nutzungs-Agenten

Zusammenfassung

Wir präsentieren OpenComputer, ein verifikationsgestütztes Framework zur Erstellung verifizierbarer Softwarewelten für Computer-Nutzungsagenten. OpenComputer integriert vier Komponenten: (1) app-spezifische Zustandsverifikatoren, die strukturierte Inspektionsendpunkte über reale Anwendungen bereitstellen, (2) eine sich selbst weiterentwickelnde Verifikationsschicht, die die Verifikatorzuverlässigkeit mittels ausführungsgestütztem Feedback verbessert, (3) eine Aufgabengenerierungspipeline, die realistische und maschinell überprüfbare Desktop-Aufgaben synthetisiert, und (4) eine Evaluierungsumgebung, die vollständige Trajektorien aufzeichnet und prüfbare Teilpunkte-Belohnungen berechnet. In seiner aktuellen Form umfasst OpenComputer 33 Desktop-Anwendungen und 1.000 finalisierte Aufgaben, die Browser, Office-Tools, Kreativsoftware, Entwicklungsumgebungen, Dateimanager und Kommunikationsanwendungen abdecken. Experimente zeigen, dass OpenComputers fest codierte Verifikatoren enger mit menschlicher Beurteilung übereinstimmen als die LLM-als-Richter-Bewertung, insbesondere wenn der Erfolg vom feinkörnigen Anwendungszustand abhängt. Frontier-Agenten haben trotz Teilfortschritten Schwierigkeiten mit der End-to-End-Fertigstellung, und Open-Source-Modelle zeigen starke Abfälle von ihren OSWorld-Verified-Ergebnissen, was eine anhaltende Lücke in der robusten Computerautomatisierung offenbart.

English

We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.