OS-Genesis: 역 과제 합성을 통한 GUI 에이전트 궤적 구축 자동화OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse
Task Synthesis
시각-언어 모델(Vision-Language Models, VLMs)을 기반으로 한 그래픽 사용자 인터페이스(GUI) 에이전트들은 인간과 유사한 컴퓨터 제어 능력을 보여주었습니다. 디지털 자동화를 발전시키는 데 유용하다는 점에도 불구하고, 훈련을 위한 고품질 궤적 데이터 수집이라는 중요한 병목 현상이 지속되고 있습니다. 이러한 데이터를 수집하는 일반적인 방법은 인간 감독이나 사전 정의된 작업을 실행하여 합성 데이터를 생성하는 데 의존하는데, 이는 자원 소모가 많거나 데이터 품질을 보장할 수 없는 문제가 있습니다. 게다가, 이러한 방법들은 합성 데이터와 실제 환경 간의 한계와 상당한 간극을 겪고 있습니다. 이러한 도전에 대처하기 위해, 우리는 기존의 궤적 수집 과정을 역전시키는 혁신적인 GUI 데이터 합성 파이프라인인 OS-Genesis를 제안합니다. 사전 정의된 작업에 의존하는 대신, OS-Genesis는 에이전트가 먼저 환경을 인식하고 단계별 상호 작용을 수행한 후 궤적 수준의 탐색을 가능하게 하는 고품질 작업을 후향적으로 도출합니다. 그런 다음 궤적 보상 모델을 활용하여 생성된 궤적의 품질을 보장합니다. OS-Genesis를 사용하여 GUI 에이전트를 훈련시키면 매우 어려운 온라인 벤치마크에서 그들의 성능이 크게 향상되는 것을 입증합니다. 심층 분석은 더 나아가, 기존의 합성 방법과 비교하여 OS-Genesis의 효율성 및 우수한 데이터 품질과 다양성을 검증합니다. 우리의 코드, 데이터 및 체크포인트는 다음 링크에서 확인할 수 있습니다: https://qiushisun.github.io/OS-Genesis-Home/{OS-Genesis 홈페이지}.