OpenComputer: Mundos de Software Verificáveis para Agentes de Uso de Computador

Resumo

Apresentamos o OpenComputer, uma estrutura fundamentada em verificadores para a construção de mundos de software verificáveis para agentes de uso de computador. O OpenComputer integra quatro componentes: (1) verificadores de estado específicos de aplicativos que expõem pontos de inspeção estruturados sobre aplicativos reais, (2) uma camada de verificação auto-evolutiva que melhora a confiabilidade dos verificadores usando feedback fundamentado na execução, (3) um pipeline de geração de tarefas que sintetiza tarefas de desktop realistas e verificáveis por máquina, e (4) uma estrutura de avaliação que registra trajetórias completas e calcula recompensas auditáveis de crédito parcial. Em sua forma atual, o OpenComputer abrange 33 aplicativos de desktop e 1.000 tarefas finalizadas, abrangendo navegadores, ferramentas de escritório, softwares criativos, ambientes de desenvolvimento, gerenciadores de arquivos e aplicativos de comunicação. Experimentos mostram que os verificadores rigidamente codificados do OpenComputer se alinham mais estreitamente com a adjudicação humana do que a avaliação do tipo LLM como juiz, especialmente quando o sucesso depende de um estado de aplicativo refinado. Agentes de fronteira têm dificuldade com a conclusão de ponta a ponta, apesar do progresso parcial, e modelos de código aberto apresentam quedas acentuadas em relação às suas pontuações no OSWorld-Verified, expondo uma lacuna persistente na automação robusta de computadores.

English

We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.