OS-Genesis:逆タスク合成を介したGUIエージェントの軌跡構築の自動化OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse
Task Synthesis
ビジョン言語モデル(VLM)によって駆動されるグラフィカルユーザーインターフェース(GUI)エージェントは、人間らしいコンピュータ制御能力を示しています。デジタル自動化の推進に役立つ一方で、訓練用の高品質な軌跡データを収集するという重要なボトルネックが依然として存在しています。このようなデータを収集するための一般的な手法は、人間の監督または事前定義されたタスクの実行を通じた合成データ生成に依存しており、いずれもリソースを多く必要とするか、データ品質を保証できません。さらに、これらの手法は、合成データと実世界の環境との間に限られたデータの多様性や大きなギャップがあるという課題に直面しています。これらの課題に対処するために、我々はOS-Genesisを提案します。これは、従来の軌跡収集プロセスを逆転させる革新的なGUIデータ合成パイプラインです。OS-Genesisは、事前定義されたタスクに依存するのではなく、エージェントに最初に環境を認識させ、段階的な相互作用を行わせ、その後後ろ向きに高品質なタスクを導き出して軌跡レベルの探索を可能にします。その後、軌跡報酬モデルが生成された軌跡の品質を確保するために使用されます。OS-Genesisを使用してGUIエージェントを訓練すると、高度に挑戦的なオンラインベンチマークでのパフォーマンスが大幅に向上することを示します。詳細な分析は、既存の合成手法と比較して、OS-Genesisの効率性、優れたデータ品質、多様性をさらに検証します。我々のコード、データ、およびチェックポイントは、{OS-Genesisホームページ}で入手可能です。