ChatPaper.aiChatPaper

OpenComputer: 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 환경

OpenComputer: Verifiable Software Worlds for Computer-Use Agents

May 19, 2026
저자: Jinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan
cs.AI

초록

본 논문에서는 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 환경을 구축하는 검증기 기반 프레임워크인 OpenComputer를 제시한다. OpenComputer는 다음 네 가지 구성 요소를 통합한다: (1) 실제 애플리케이션에 대해 구조화된 검사 엔드포인트를 노출하는 애플리케이션별 상태 검증기, (2) 실행 기반 피드백을 활용하여 검증기 신뢰성을 개선하는 자기 진화형 검증 계층, (3) 현실적이고 기계적으로 확인 가능한 데스크톱 작업을 합성하는 작업 생성 파이프라인, (4) 전체 궤적을 기록하고 감사 가능한 부분 점수 보상을 계산하는 평가 하네스. 현재 형태의 OpenComputer는 33개의 데스크톱 애플리케이션과 브라우저, 사무 도구, 창작 소프트웨어, 개발 환경, 파일 관리자, 커뮤니케이션 애플리케이션에 걸친 1,000개의 완성된 작업을 포함한다. 실험 결과, OpenComputer의 하드코딩된 검증기는 특히 성공 여부가 세분화된 애플리케이션 상태에 의존할 때, LLM 심사 평가보다 인간의 판단과 더 밀접하게 일치하는 것으로 나타났다. 최첨단 에이전트는 부분적인 진전에도 불구하고 종단 간 완료에 어려움을 겪으며, 오픈소스 모델은 OSWorld-Verified 점수에서 급격한 하락을 보여 견고한 컴퓨터 자동화에 지속적인 격차가 존재함을 드러낸다.
English
We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.