ChatPaper.aiChatPaper

AgentSynth: 汎用コンピュータ利用エージェントのためのスケーラブルなタスク生成

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

June 17, 2025
著者: Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song
cs.AI

要旨

私たちは、汎用コンピュータ利用エージェント向けの高品質なタスクと軌跡データセットを自動的に合成するための、スケーラブルでコスト効率の良いパイプラインであるAgentSynthを紹介します。情報の非対称性を活用し、AgentSynthは生成時には単純だが、長期的なタスクに組み合わせると大幅に難易度が上がるサブタスクを構築し、6,000以上の多様で現実的なタスクを作成します。このパイプラインは、ペルソナに導かれたLLMベースのタスク提案者から始まり、タスクを完了して軌跡を記録する実行エージェントが続きます。このプロセスを繰り返してサブタスクのシーケンスを形成し、その後、別のエージェントが制御可能な難易度の複合タスクに要約します。AgentSynthの重要な強みは、サブタスクの数を変えることでタスクの複雑さを正確に調整できる点です。実証評価では、最先端のLLMエージェントが難易度レベル1で18%の成功率からレベル6ではわずか4%に急激に低下し、ベンチマークの難易度と識別能力が強調されています。さらに、このパイプラインは軌跡あたりの平均コストが\$0.60と低く、人間による注釈よりも桁違いに安価です。私たちのコードとデータはhttps://github.com/sunblaze-ucb/AgentSynthで公開されています。
English
We introduce AgentSynth, a scalable and cost-efficient pipeline for automatically synthesizing high-quality tasks and trajectory datasets for generalist computer-use agents. Leveraging information asymmetry, AgentSynth constructs subtasks that are simple during generation but significantly more challenging when composed into long-horizon tasks, enabling the creation of over 6,000 diverse and realistic tasks. Our pipeline begins with an LLM-based task proposer guided by a persona, followed by an execution agent that completes the task and logs the trajectory. This process is repeated iteratively to form a sequence of subtasks, which are then summarized by a separate agent into a composite task of controllable difficulty. A key strength of AgentSynth is its ability to precisely modulate task complexity by varying the number of subtasks. Empirical evaluations show that state-of-the-art LLM agents suffer a steep performance drop, from 18% success at difficulty level 1 to just 4% at level 6, highlighting the benchmark's difficulty and discriminative power. Moreover, our pipeline achieves a low average cost of \$0.60 per trajectory, orders of magnitude cheaper than human annotations. Our code and data are publicly available at https://github.com/sunblaze-ucb/AgentSynth
PDF53June 19, 2025