OS-Genesis:通过反向任务合成自动化GUI代理轨迹构建OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse
Task Synthesis
由视觉-语言模型(VLMs)驱动的图形用户界面(GUI)代理展示了类似人类的计算机控制能力。尽管它们在推动数字自动化方面很有用,但一个关键瓶颈仍然存在:为训练收集高质量轨迹数据。通常用于收集此类数据的常见做法依赖于人工监督或通过执行预定义任务生成合成数据,这两种方法要么资源密集,要么无法保证数据质量。此外,这些方法受限于数据多样性有限以及合成数据与真实环境之间存在显著差距。为了解决这些挑战,我们提出了OS-Genesis,这是一个新颖的GUI数据合成流程,它颠覆了传统的轨迹收集过程。OS-Genesis不依赖于预定义任务,而是使代理能够首先感知环境并执行逐步交互,然后回顾性地推导出高质量任务,以实现轨迹级别的探索。然后采用轨迹奖励模型来确保生成轨迹的质量。我们证明,使用OS-Genesis训练GUI代理显著提高了它们在高度具有挑战性的在线基准测试中的性能。深入分析进一步验证了OS-Genesis的效率,以及与现有合成方法相比,其数据质量和多样性更优。我们的代码、数据和检查点可在https://qiushisun.github.io/OS-Genesis-Home/ {OS-Genesis主页} 上获得。