Les LLM en tant que simulateurs évolutifs et polyvalents pour l'entraînement d'agents numériques
LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
October 16, 2025
papers.authors: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang
cs.AI
papers.abstract
Les agents numériques nécessitent des trajectoires d’interface utilisateur (UI) diversifiées et à grande échelle pour généraliser leurs performances à des tâches du monde réel. Cependant, la collecte de telles données est extrêmement coûteuse en termes d’annotation humaine, d’infrastructure et d’ingénierie. Pour répondre à ce défi, nous introduisons UI-Simulator, un paradigme évolutif qui génère des états et des transitions structurés d’interface utilisateur afin de synthétiser des trajectoires d’entraînement à grande échelle. Notre paradigme intègre un simulateur de monde numérique pour produire des états d’UI variés, un processus de déploiement guidé pour une exploration cohérente, et un enveloppeur de trajectoires qui génère des trajectoires de haute qualité et diversifiées pour l’entraînement des agents. Nous proposons également UI-Simulator-Grow, une stratégie de mise à l’échelle ciblée qui permet un déploiement plus rapide et plus efficace en priorisant les tâches à fort impact et en synthétisant des variantes de trajectoires informatives. Les expériences menées sur WebArena et AndroidWorld montrent que UI-Simulator rivalise ou surpasse les agents open-source entraînés sur des interfaces utilisateur réelles, avec une robustesse significativement meilleure, malgré l’utilisation de modèles enseignants moins performants. De plus, UI-Simulator-Grow atteint les performances de Llama-3-70B-Instruct en utilisant uniquement Llama-3-8B-Instruct comme modèle de base, mettant en évidence le potentiel du paradigme de synthèse ciblée pour améliorer continuellement et efficacement les agents numériques.
English
Digital agents require diverse, large-scale UI trajectories to generalize
across real-world tasks, yet collecting such data is prohibitively expensive in
both human annotation, infra and engineering perspectives. To this end, we
introduce UI-Simulator, a scalable paradigm that generates
structured UI states and transitions to synthesize training trajectories at
scale. Our paradigm integrates a digital world simulator for diverse UI states,
a guided rollout process for coherent exploration, and a trajectory wrapper
that produces high-quality and diverse trajectories for agent training. We
further propose UI-Simulator-Grow, a targeted scaling strategy that
enables more rapid and data-efficient scaling by prioritizing high-impact tasks
and synthesizes informative trajectory variants. Experiments on WebArena and
AndroidWorld show that UI-Simulator rivals or surpasses open-source agents
trained on real UIs with significantly better robustness, despite using weaker
teacher models. Moreover, UI-Simulator-Grow matches the performance of
Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model,
highlighting the potential of targeted synthesis scaling paradigm to
continuously and efficiently enhance the digital agents.