AgentSynth: Generación Escalable de Tareas para Agentes de Uso General en Computación

Resumen

Presentamos AgentSynth, una pipeline escalable y rentable para sintetizar automáticamente tareas de alta calidad y conjuntos de datos de trayectorias para agentes generalistas de uso informático. Aprovechando la asimetría de información, AgentSynth construye subtareas que son simples durante la generación pero significativamente más desafiantes cuando se componen en tareas de largo horizonte, permitiendo la creación de más de 6,000 tareas diversas y realistas. Nuestra pipeline comienza con un proponente de tareas basado en un LLM guiado por una persona, seguido por un agente de ejecución que completa la tarea y registra la trayectoria. Este proceso se repite iterativamente para formar una secuencia de subtareas, que luego son resumidas por un agente separado en una tarea compuesta de dificultad controlable. Una fortaleza clave de AgentSynth es su capacidad para modular con precisión la complejidad de la tarea variando el número de subtareas. Las evaluaciones empíricas muestran que los agentes LLM de última generación experimentan una caída pronunciada en el rendimiento, del 18% de éxito en el nivel de dificultad 1 a solo el 4% en el nivel 6, destacando la dificultad y el poder discriminativo del benchmark. Además, nuestra pipeline logra un costo promedio bajo de \$0.60 por trayectoria, órdenes de magnitud más barato que las anotaciones humanas. Nuestro código y datos están disponibles públicamente en https://github.com/sunblaze-ucb/AgentSynth.

English

We introduce AgentSynth, a scalable and cost-efficient pipeline for automatically synthesizing high-quality tasks and trajectory datasets for generalist computer-use agents. Leveraging information asymmetry, AgentSynth constructs subtasks that are simple during generation but significantly more challenging when composed into long-horizon tasks, enabling the creation of over 6,000 diverse and realistic tasks. Our pipeline begins with an LLM-based task proposer guided by a persona, followed by an execution agent that completes the task and logs the trajectory. This process is repeated iteratively to form a sequence of subtasks, which are then summarized by a separate agent into a composite task of controllable difficulty. A key strength of AgentSynth is its ability to precisely modulate task complexity by varying the number of subtasks. Empirical evaluations show that state-of-the-art LLM agents suffer a steep performance drop, from 18% success at difficulty level 1 to just 4% at level 6, highlighting the benchmark's difficulty and discriminative power. Moreover, our pipeline achieves a low average cost of \$0.60 per trajectory, orders of magnitude cheaper than human annotations. Our code and data are publicly available at https://github.com/sunblaze-ucb/AgentSynth

AgentSynth: Generación Escalable de Tareas para Agentes de Uso General en Computación

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

Resumen

Support