LLM come simulatori scalabili e generici per l'addestramento di agenti digitali in evoluzione
LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
October 16, 2025
Autori: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang
cs.AI
Abstract
Gli agenti digitali richiedono traiettorie di interfaccia utente (UI) diversificate e su larga scala per generalizzare su compiti del mondo reale, tuttavia la raccolta di tali dati è proibitivamente costosa in termini di annotazione umana, infrastruttura e ingegnerizzazione. A tal fine, introduciamo UI-Simulator, un paradigma scalabile che genera stati e transizioni strutturati di UI per sintetizzare traiettorie di addestramento su larga scala. Il nostro paradigma integra un simulatore di mondo digitale per stati di UI diversificati, un processo di rollout guidato per un'esplorazione coerente e un wrapper di traiettorie che produce traiettorie di alta qualità e diversificate per l'addestramento degli agenti. Proponiamo inoltre UI-Simulator-Grow, una strategia di scalatura mirata che consente una scalatura più rapida ed efficiente in termini di dati, dando priorità a compiti ad alto impatto e sintetizzando varianti informative di traiettorie. Gli esperimenti su WebArena e AndroidWorld dimostrano che UI-Simulator rivaleggia o supera agenti open-source addestrati su UI reali con una robustezza significativamente migliore, nonostante utilizzi modelli insegnanti più deboli. Inoltre, UI-Simulator-Grow eguaglia le prestazioni di Llama-3-70B-Instruct utilizzando solo Llama-3-8B-Instruct come modello base, evidenziando il potenziale del paradigma di sintesi mirata per migliorare continuamente ed efficientemente gli agenti digitali.
English
Digital agents require diverse, large-scale UI trajectories to generalize
across real-world tasks, yet collecting such data is prohibitively expensive in
both human annotation, infra and engineering perspectives. To this end, we
introduce UI-Simulator, a scalable paradigm that generates
structured UI states and transitions to synthesize training trajectories at
scale. Our paradigm integrates a digital world simulator for diverse UI states,
a guided rollout process for coherent exploration, and a trajectory wrapper
that produces high-quality and diverse trajectories for agent training. We
further propose UI-Simulator-Grow, a targeted scaling strategy that
enables more rapid and data-efficient scaling by prioritizing high-impact tasks
and synthesizes informative trajectory variants. Experiments on WebArena and
AndroidWorld show that UI-Simulator rivals or surpasses open-source agents
trained on real UIs with significantly better robustness, despite using weaker
teacher models. Moreover, UI-Simulator-Grow matches the performance of
Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model,
highlighting the potential of targeted synthesis scaling paradigm to
continuously and efficiently enhance the digital agents.