LLM come simulatori scalabili e generici per l'addestramento di agenti digitali in evoluzione

Abstract

Gli agenti digitali richiedono traiettorie di interfaccia utente (UI) diversificate e su larga scala per generalizzare su compiti del mondo reale, tuttavia la raccolta di tali dati è proibitivamente costosa in termini di annotazione umana, infrastruttura e ingegnerizzazione. A tal fine, introduciamo UI-Simulator, un paradigma scalabile che genera stati e transizioni strutturati di UI per sintetizzare traiettorie di addestramento su larga scala. Il nostro paradigma integra un simulatore di mondo digitale per stati di UI diversificati, un processo di rollout guidato per un'esplorazione coerente e un wrapper di traiettorie che produce traiettorie di alta qualità e diversificate per l'addestramento degli agenti. Proponiamo inoltre UI-Simulator-Grow, una strategia di scalatura mirata che consente una scalatura più rapida ed efficiente in termini di dati, dando priorità a compiti ad alto impatto e sintetizzando varianti informative di traiettorie. Gli esperimenti su WebArena e AndroidWorld dimostrano che UI-Simulator rivaleggia o supera agenti open-source addestrati su UI reali con una robustezza significativamente migliore, nonostante utilizzi modelli insegnanti più deboli. Inoltre, UI-Simulator-Grow eguaglia le prestazioni di Llama-3-70B-Instruct utilizzando solo Llama-3-8B-Instruct come modello base, evidenziando il potenziale del paradigma di sintesi mirata per migliorare continuamente ed efficientemente gli agenti digitali.

English

Digital agents require diverse, large-scale UI trajectories to generalize across real-world tasks, yet collecting such data is prohibitively expensive in both human annotation, infra and engineering perspectives. To this end, we introduce UI-Simulator, a scalable paradigm that generates structured UI states and transitions to synthesize training trajectories at scale. Our paradigm integrates a digital world simulator for diverse UI states, a guided rollout process for coherent exploration, and a trajectory wrapper that produces high-quality and diverse trajectories for agent training. We further propose UI-Simulator-Grow, a targeted scaling strategy that enables more rapid and data-efficient scaling by prioritizing high-impact tasks and synthesizes informative trajectory variants. Experiments on WebArena and AndroidWorld show that UI-Simulator rivals or surpasses open-source agents trained on real UIs with significantly better robustness, despite using weaker teacher models. Moreover, UI-Simulator-Grow matches the performance of Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model, highlighting the potential of targeted synthesis scaling paradigm to continuously and efficiently enhance the digital agents.

LLM come simulatori scalabili e generici per l'addestramento di agenti digitali in evoluzione

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

Abstract

Support