LLM's als schaalbare, algemene simulatieplatforms voor de training van evoluerende digitale agenten
LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
October 16, 2025
Auteurs: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang
cs.AI
Samenvatting
Digitale agenten hebben diverse, grootschalige UI-trajecten nodig om zich aan te passen aan real-world taken, maar het verzamelen van dergelijke data is extreem kostbaar vanuit het perspectief van menselijke annotatie, infrastructuur en engineering. Daarom introduceren we UI-Simulator, een schaalbare paradigma dat gestructureerde UI-toestanden en overgangen genereert om trainings-trajecten op grote schaal te synthetiseren. Ons paradigma integreert een digitale wereld-simulator voor diverse UI-toestanden, een geleid uitrolproces voor coherente exploratie, en een traject-wrapper die hoogwaardige en diverse trajecten produceert voor agenttraining. We stellen verder UI-Simulator-Grow voor, een gerichte schaalstrategie die snellere en data-efficiëntere schaling mogelijk maakt door prioriteit te geven aan taken met grote impact en informatieve trajectvarianten te synthetiseren. Experimenten op WebArena en AndroidWorld tonen aan dat UI-Simulator open-source agenten die getraind zijn op echte UI's evenaart of overtreft met aanzienlijk betere robuustheid, ondanks het gebruik van zwakkere leraarmodellen. Bovendien evenaart UI-Simulator-Grow de prestaties van Llama-3-70B-Instruct met alleen Llama-3-8B-Instruct als basismodel, wat het potentieel benadrukt van het gerichte syntheseschaalparadigma om digitale agenten continu en efficiënt te verbeteren.
English
Digital agents require diverse, large-scale UI trajectories to generalize
across real-world tasks, yet collecting such data is prohibitively expensive in
both human annotation, infra and engineering perspectives. To this end, we
introduce UI-Simulator, a scalable paradigm that generates
structured UI states and transitions to synthesize training trajectories at
scale. Our paradigm integrates a digital world simulator for diverse UI states,
a guided rollout process for coherent exploration, and a trajectory wrapper
that produces high-quality and diverse trajectories for agent training. We
further propose UI-Simulator-Grow, a targeted scaling strategy that
enables more rapid and data-efficient scaling by prioritizing high-impact tasks
and synthesizes informative trajectory variants. Experiments on WebArena and
AndroidWorld show that UI-Simulator rivals or surpasses open-source agents
trained on real UIs with significantly better robustness, despite using weaker
teacher models. Moreover, UI-Simulator-Grow matches the performance of
Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model,
highlighting the potential of targeted synthesis scaling paradigm to
continuously and efficiently enhance the digital agents.