ChatPaper.aiChatPaper

LLMs als skalierbare, universelle Simulatoren für die Ausbildung sich entwickelnder digitaler Agenten

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

October 16, 2025
papers.authors: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang
cs.AI

papers.abstract

Digitale Agenten benötigen vielfältige, groß angelegte UI-Trajektorien, um sich auf reale Aufgaben zu verallgemeinern. Die Erfassung solcher Daten ist jedoch sowohl aus der Perspektive menschlicher Annotation, Infrastruktur als auch Ingenieurwesen unverhältnismäßig teuer. Zu diesem Zweck führen wir UI-Simulator ein, ein skalierbares Paradigma, das strukturierte UI-Zustände und Übergänge generiert, um Trainings-Trajektorien in großem Maßstab zu synthetisieren. Unser Paradigma integriert einen digitalen Weltsimulator für vielfältige UI-Zustände, einen geführten Rollout-Prozess für kohärente Exploration und einen Trajektorien-Wrapper, der hochwertige und diverse Trajektorien für das Agententraining erzeugt. Wir schlagen weiterhin UI-Simulator-Grow vor, eine gezielte Skalierungsstrategie, die eine schnellere und dateneffizientere Skalierung ermöglicht, indem sie hochwirksame Aufgaben priorisiert und informative Trajektorienvarianten synthetisiert. Experimente auf WebArena und AndroidWorld zeigen, dass UI-Simulator Open-Source-Agenten, die auf realen UIs trainiert wurden, übertrifft oder ihnen ebenbürtig ist, mit deutlich besserer Robustheit, obwohl schwächere Lehrermodelle verwendet werden. Darüber hinaus erreicht UI-Simulator-Grow die Leistung von Llama-3-70B-Instruct, wobei nur Llama-3-8B-Instruct als Basismodell verwendet wird, was das Potenzial des gezielten Synthese-Skalierungsparadigmas zur kontinuierlichen und effizienten Verbesserung digitaler Agenten hervorhebt.
English
Digital agents require diverse, large-scale UI trajectories to generalize across real-world tasks, yet collecting such data is prohibitively expensive in both human annotation, infra and engineering perspectives. To this end, we introduce UI-Simulator, a scalable paradigm that generates structured UI states and transitions to synthesize training trajectories at scale. Our paradigm integrates a digital world simulator for diverse UI states, a guided rollout process for coherent exploration, and a trajectory wrapper that produces high-quality and diverse trajectories for agent training. We further propose UI-Simulator-Grow, a targeted scaling strategy that enables more rapid and data-efficient scaling by prioritizing high-impact tasks and synthesizes informative trajectory variants. Experiments on WebArena and AndroidWorld show that UI-Simulator rivals or surpasses open-source agents trained on real UIs with significantly better robustness, despite using weaker teacher models. Moreover, UI-Simulator-Grow matches the performance of Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model, highlighting the potential of targeted synthesis scaling paradigm to continuously and efficiently enhance the digital agents.
PDF52October 17, 2025