AgentSynth: Geração Escalável de Tarefas para Agentes Generalistas de Uso Computacional
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
June 17, 2025
Autores: Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song
cs.AI
Resumo
Apresentamos o AgentSynth, um pipeline escalável e econômico para a síntese automática de tarefas de alta qualidade e conjuntos de dados de trajetórias para agentes generalistas de uso computacional. Aproveitando a assimetria de informação, o AgentSynth constrói subtarefas que são simples durante a geração, mas significativamente mais desafiadoras quando compostas em tarefas de longo prazo, permitindo a criação de mais de 6.000 tarefas diversas e realistas. Nosso pipeline começa com um propositor de tarefas baseado em LLM (Large Language Model) guiado por uma persona, seguido por um agente de execução que completa a tarefa e registra a trajetória. Esse processo é repetido iterativamente para formar uma sequência de subtarefas, que são então resumidas por um agente separado em uma tarefa composta de dificuldade controlável. Um ponto forte do AgentSynth é sua capacidade de modular precisamente a complexidade da tarefa variando o número de subtarefas. Avaliações empíricas mostram que os agentes LLM de última geração sofrem uma queda acentuada no desempenho, de 18% de sucesso no nível de dificuldade 1 para apenas 4% no nível 6, destacando a dificuldade e o poder discriminativo do benchmark. Além disso, nosso pipeline alcança um custo médio baixo de \$0,60 por trajetória, ordens de magnitude mais barato que anotações humanas. Nosso código e dados estão disponíveis publicamente em https://github.com/sunblaze-ucb/AgentSynth.
English
We introduce AgentSynth, a scalable and cost-efficient pipeline for
automatically synthesizing high-quality tasks and trajectory datasets for
generalist computer-use agents. Leveraging information asymmetry, AgentSynth
constructs subtasks that are simple during generation but significantly more
challenging when composed into long-horizon tasks, enabling the creation of
over 6,000 diverse and realistic tasks. Our pipeline begins with an LLM-based
task proposer guided by a persona, followed by an execution agent that
completes the task and logs the trajectory. This process is repeated
iteratively to form a sequence of subtasks, which are then summarized by a
separate agent into a composite task of controllable difficulty. A key strength
of AgentSynth is its ability to precisely modulate task complexity by varying
the number of subtasks. Empirical evaluations show that state-of-the-art LLM
agents suffer a steep performance drop, from 18% success at difficulty level 1
to just 4% at level 6, highlighting the benchmark's difficulty and
discriminative power. Moreover, our pipeline achieves a low average cost of
\$0.60 per trajectory, orders of magnitude cheaper than human annotations. Our
code and data are publicly available at
https://github.com/sunblaze-ucb/AgentSynth