OS-Genesis:透過反向任務合成自動化GUI代理軌跡建構OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse
Task Synthesis
由視覺語言模型(VLMs)驅動的圖形使用者介面(GUI)代理已展示出類似人類的電腦控制能力。儘管它們在推動數位自動化方面具有實用性,但一個關鍵瓶頸仍然存在:為訓練收集高質量軌跡數據。常見的收集此類數據的做法依賴人類監督或通過執行預定義任務生成合成數據,這兩者都要么耗費大量資源,要么無法保證數據質量。此外,這些方法受限於數據多樣性不足以及合成數據與真實環境之間存在顯著差距。為應對這些挑戰,我們提出了OS-Genesis,一種新穎的GUI數據合成流程,逆轉了傳統的軌跡收集過程。OS-Genesis不依賴於預定義任務,而是使代理能夠首先感知環境並進行逐步交互,然後回顧性地推導出高質量任務,以實現軌跡級探索。然後採用軌跡獎勵模型來確保生成軌跡的質量。我們證明使用OS-Genesis訓練GUI代理顯著提高了它們在高度具有挑戰性的在線基準測試中的表現。深入分析進一步驗證了OS-Genesis的效率以及與現有合成方法相比其卓越的數據質量和多樣性。我們的代碼、數據和檢查點可在https://qiushisun.github.io/OS-Genesis-Home/ {OS-Genesis 主頁} 上找到。