AgentSynth: Schaalbare Taakgeneratie voor Algemene Computergebruiksagenten
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
June 17, 2025
Auteurs: Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song
cs.AI
Samenvatting
We introduceren AgentSynth, een schaalbare en kostenefficiënte pipeline voor het automatisch synthetiseren van hoogwaardige taken en trajectdatasets voor generalistische computergebruik-agents. Door gebruik te maken van informatie-asymmetrie, construeert AgentSynth subtaken die eenvoudig zijn tijdens de generatie, maar aanzienlijk uitdagender worden wanneer ze worden samengesteld tot langetermijntaken, wat de creatie van meer dan 6.000 diverse en realistische taken mogelijk maakt. Onze pipeline begint met een op LLM gebaseerde taakvoorsteller die wordt geleid door een persona, gevolgd door een uitvoeringsagent die de taak voltooit en het traject vastlegt. Dit proces wordt iteratief herhaald om een reeks subtaken te vormen, die vervolgens door een aparte agent worden samengevat tot een samengestelde taak met instelbare moeilijkheidsgraad. Een belangrijk sterk punt van AgentSynth is het vermogen om de taakcomplexiteit precies te moduleren door het aantal subtaken te variëren. Empirische evaluaties tonen aan dat state-of-the-art LLM-agents een sterke prestatievermindering ervaren, van 18% succes bij moeilijkheidsniveau 1 tot slechts 4% bij niveau 6, wat de moeilijkheidsgraad en het onderscheidend vermogen van de benchmark benadrukt. Bovendien bereikt onze pipeline een lage gemiddelde kostprijs van \$0,60 per traject, wat ordes van grootte goedkoper is dan menselijke annotaties. Onze code en gegevens zijn publiekelijk beschikbaar op https://github.com/sunblaze-ucb/AgentSynth.
English
We introduce AgentSynth, a scalable and cost-efficient pipeline for
automatically synthesizing high-quality tasks and trajectory datasets for
generalist computer-use agents. Leveraging information asymmetry, AgentSynth
constructs subtasks that are simple during generation but significantly more
challenging when composed into long-horizon tasks, enabling the creation of
over 6,000 diverse and realistic tasks. Our pipeline begins with an LLM-based
task proposer guided by a persona, followed by an execution agent that
completes the task and logs the trajectory. This process is repeated
iteratively to form a sequence of subtasks, which are then summarized by a
separate agent into a composite task of controllable difficulty. A key strength
of AgentSynth is its ability to precisely modulate task complexity by varying
the number of subtasks. Empirical evaluations show that state-of-the-art LLM
agents suffer a steep performance drop, from 18% success at difficulty level 1
to just 4% at level 6, highlighting the benchmark's difficulty and
discriminative power. Moreover, our pipeline achieves a low average cost of
\$0.60 per trajectory, orders of magnitude cheaper than human annotations. Our
code and data are publicly available at
https://github.com/sunblaze-ucb/AgentSynth