ChatPaper.aiChatPaper

AgentSynth: Generazione Scalabile di Task per Agenti Informatici Generalisti

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

June 17, 2025
Autori: Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song
cs.AI

Abstract

Introduciamo AgentSynth, una pipeline scalabile e conveniente per la sintesi automatica di task di alta qualità e dataset di traiettorie per agenti generalisti nell'uso del computer. Sfruttando l'asimmetria informativa, AgentSynth costruisce sottotask che sono semplici durante la generazione ma significativamente più complessi quando composti in task a lungo termine, consentendo la creazione di oltre 6.000 task diversificati e realistici. La nostra pipeline inizia con un propositore di task basato su LLM guidato da una persona, seguito da un agente esecutivo che completa il task e registra la traiettoria. Questo processo viene ripetuto iterativamente per formare una sequenza di sottotask, che vengono poi riassunti da un agente separato in un task composito con difficoltà controllabile. Un punto di forza chiave di AgentSynth è la sua capacità di modulare con precisione la complessità del task variando il numero di sottotask. Valutazioni empiriche mostrano che gli agenti LLM all'avanguardia subiscono un drastico calo delle prestazioni, passando dal 18% di successo al livello di difficoltà 1 a solo il 4% al livello 6, evidenziando la difficoltà e il potere discriminante del benchmark. Inoltre, la nostra pipeline raggiunge un costo medio di \$0,60 per traiettoria, ordini di grandezza più economico rispetto alle annotazioni umane. Il nostro codice e i dati sono disponibili pubblicamente su https://github.com/sunblaze-ucb/AgentSynth.
English
We introduce AgentSynth, a scalable and cost-efficient pipeline for automatically synthesizing high-quality tasks and trajectory datasets for generalist computer-use agents. Leveraging information asymmetry, AgentSynth constructs subtasks that are simple during generation but significantly more challenging when composed into long-horizon tasks, enabling the creation of over 6,000 diverse and realistic tasks. Our pipeline begins with an LLM-based task proposer guided by a persona, followed by an execution agent that completes the task and logs the trajectory. This process is repeated iteratively to form a sequence of subtasks, which are then summarized by a separate agent into a composite task of controllable difficulty. A key strength of AgentSynth is its ability to precisely modulate task complexity by varying the number of subtasks. Empirical evaluations show that state-of-the-art LLM agents suffer a steep performance drop, from 18% success at difficulty level 1 to just 4% at level 6, highlighting the benchmark's difficulty and discriminative power. Moreover, our pipeline achieves a low average cost of \$0.60 per trajectory, orders of magnitude cheaper than human annotations. Our code and data are publicly available at https://github.com/sunblaze-ucb/AgentSynth
PDF63June 19, 2025