AgentSynth: Skalierbare Aufgaben-Generierung für universelle Computer-Nutzungs-Agenten
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
June 17, 2025
Autoren: Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song
cs.AI
Zusammenfassung
Wir stellen AgentSynth vor, eine skalierbare und kosteneffiziente Pipeline zur automatischen Synthese hochwertiger Aufgaben und Trajektorien-Datensätze für generalistische Computer-Nutzungs-Agenten. Durch die Nutzung von Informationsasymmetrie konstruiert AgentSynth Teilaufgaben, die während der Generierung einfach sind, aber deutlich anspruchsvoller werden, wenn sie zu langfristigen Aufgaben zusammengesetzt werden. Dies ermöglicht die Erstellung von über 6.000 vielfältigen und realistischen Aufgaben. Unsere Pipeline beginnt mit einem auf einer Persona basierenden LLM-Aufgabenplaner, gefolgt von einem Ausführungsagenten, der die Aufgabe abschließt und die Trajektorie protokolliert. Dieser Prozess wird iterativ wiederholt, um eine Sequenz von Teilaufgaben zu bilden, die dann von einem separaten Agenten zu einer zusammengesetzten Aufgabe mit kontrollierbarer Schwierigkeit zusammengefasst werden. Eine wesentliche Stärke von AgentSynth ist die Fähigkeit, die Aufgabenkomplexität präzise zu modulieren, indem die Anzahl der Teilaufgaben variiert wird. Empirische Auswertungen zeigen, dass state-of-the-art LLM-Agenten einen starken Leistungsabfall aufweisen, von 18 % Erfolgsquote bei Schwierigkeitsgrad 1 auf nur 4 % bei Grad 6, was die Schwierigkeit und die diskriminative Kraft des Benchmarks unterstreicht. Darüber hinaus erreicht unsere Pipeline durchschnittliche Kosten von 0,60 US-Dollar pro Trajektorie, was um Größenordnungen günstiger ist als menschliche Annotationen. Unser Code und unsere Daten sind öffentlich verfügbar unter https://github.com/sunblaze-ucb/AgentSynth.
English
We introduce AgentSynth, a scalable and cost-efficient pipeline for
automatically synthesizing high-quality tasks and trajectory datasets for
generalist computer-use agents. Leveraging information asymmetry, AgentSynth
constructs subtasks that are simple during generation but significantly more
challenging when composed into long-horizon tasks, enabling the creation of
over 6,000 diverse and realistic tasks. Our pipeline begins with an LLM-based
task proposer guided by a persona, followed by an execution agent that
completes the task and logs the trajectory. This process is repeated
iteratively to form a sequence of subtasks, which are then summarized by a
separate agent into a composite task of controllable difficulty. A key strength
of AgentSynth is its ability to precisely modulate task complexity by varying
the number of subtasks. Empirical evaluations show that state-of-the-art LLM
agents suffer a steep performance drop, from 18% success at difficulty level 1
to just 4% at level 6, highlighting the benchmark's difficulty and
discriminative power. Moreover, our pipeline achieves a low average cost of
\$0.60 per trajectory, orders of magnitude cheaper than human annotations. Our
code and data are publicly available at
https://github.com/sunblaze-ucb/AgentSynth