AgentSynth: Масштабируемая генерация задач для универсальных агентов, работающих с компьютером
AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
June 17, 2025
Авторы: Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song
cs.AI
Аннотация
Мы представляем AgentSynth — масштабируемый и экономически эффективный конвейер для автоматического синтеза высококачественных задач и наборов данных траекторий для универсальных агентов, работающих с компьютером. Используя асимметрию информации, AgentSynth создает подзадачи, которые просты на этапе генерации, но становятся значительно сложнее при объединении в долгосрочные задачи, что позволяет создавать более 6000 разнообразных и реалистичных задач. Наш конвейер начинается с предложения задач на основе языковой модели (LLM), управляемой персонажем, за которым следует исполнительный агент, выполняющий задачу и записывающий траекторию. Этот процесс повторяется итеративно для формирования последовательности подзадач, которые затем обобщаются отдельным агентом в составную задачу с контролируемой сложностью. Ключевое преимущество AgentSynth заключается в возможности точной настройки сложности задач путем изменения количества подзадач. Эмпирические оценки показывают, что современные LLM-агенты демонстрируют резкое снижение производительности — с 18% успешности на уровне сложности 1 до всего 4% на уровне 6, что подчеркивает сложность и дискриминативную силу нашего бенчмарка. Кроме того, наш конвейер достигает низкой средней стоимости в \$0,60 за траекторию, что на порядки дешевле, чем аннотации, выполненные людьми. Наш код и данные доступны публично по адресу https://github.com/sunblaze-ucb/AgentSynth.
English
We introduce AgentSynth, a scalable and cost-efficient pipeline for
automatically synthesizing high-quality tasks and trajectory datasets for
generalist computer-use agents. Leveraging information asymmetry, AgentSynth
constructs subtasks that are simple during generation but significantly more
challenging when composed into long-horizon tasks, enabling the creation of
over 6,000 diverse and realistic tasks. Our pipeline begins with an LLM-based
task proposer guided by a persona, followed by an execution agent that
completes the task and logs the trajectory. This process is repeated
iteratively to form a sequence of subtasks, which are then summarized by a
separate agent into a composite task of controllable difficulty. A key strength
of AgentSynth is its ability to precisely modulate task complexity by varying
the number of subtasks. Empirical evaluations show that state-of-the-art LLM
agents suffer a steep performance drop, from 18% success at difficulty level 1
to just 4% at level 6, highlighting the benchmark's difficulty and
discriminative power. Moreover, our pipeline achieves a low average cost of
\$0.60 per trajectory, orders of magnitude cheaper than human annotations. Our
code and data are publicly available at
https://github.com/sunblaze-ucb/AgentSynth