AgentSynth: Generación Escalable de Tareas para Agentes de Uso General en Computación
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
June 17, 2025
Autores: Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song
cs.AI
Resumen
Presentamos AgentSynth, una pipeline escalable y rentable para sintetizar automáticamente tareas de alta calidad y conjuntos de datos de trayectorias para agentes generalistas de uso informático. Aprovechando la asimetría de información, AgentSynth construye subtareas que son simples durante la generación pero significativamente más desafiantes cuando se componen en tareas de largo horizonte, permitiendo la creación de más de 6,000 tareas diversas y realistas. Nuestra pipeline comienza con un proponente de tareas basado en un LLM guiado por una persona, seguido por un agente de ejecución que completa la tarea y registra la trayectoria. Este proceso se repite iterativamente para formar una secuencia de subtareas, que luego son resumidas por un agente separado en una tarea compuesta de dificultad controlable. Una fortaleza clave de AgentSynth es su capacidad para modular con precisión la complejidad de la tarea variando el número de subtareas. Las evaluaciones empíricas muestran que los agentes LLM de última generación experimentan una caída pronunciada en el rendimiento, del 18% de éxito en el nivel de dificultad 1 a solo el 4% en el nivel 6, destacando la dificultad y el poder discriminativo del benchmark. Además, nuestra pipeline logra un costo promedio bajo de \$0.60 por trayectoria, órdenes de magnitud más barato que las anotaciones humanas. Nuestro código y datos están disponibles públicamente en https://github.com/sunblaze-ucb/AgentSynth.
English
We introduce AgentSynth, a scalable and cost-efficient pipeline for
automatically synthesizing high-quality tasks and trajectory datasets for
generalist computer-use agents. Leveraging information asymmetry, AgentSynth
constructs subtasks that are simple during generation but significantly more
challenging when composed into long-horizon tasks, enabling the creation of
over 6,000 diverse and realistic tasks. Our pipeline begins with an LLM-based
task proposer guided by a persona, followed by an execution agent that
completes the task and logs the trajectory. This process is repeated
iteratively to form a sequence of subtasks, which are then summarized by a
separate agent into a composite task of controllable difficulty. A key strength
of AgentSynth is its ability to precisely modulate task complexity by varying
the number of subtasks. Empirical evaluations show that state-of-the-art LLM
agents suffer a steep performance drop, from 18% success at difficulty level 1
to just 4% at level 6, highlighting the benchmark's difficulty and
discriminative power. Moreover, our pipeline achieves a low average cost of
\$0.60 per trajectory, orders of magnitude cheaper than human annotations. Our
code and data are publicly available at
https://github.com/sunblaze-ucb/AgentSynth