Les LLM en tant que simulateurs évolutifs et polyvalents pour l'entraînement d'agents numériques

papers.abstract

Les agents numériques nécessitent des trajectoires d’interface utilisateur (UI) diversifiées et à grande échelle pour généraliser leurs performances à des tâches du monde réel. Cependant, la collecte de telles données est extrêmement coûteuse en termes d’annotation humaine, d’infrastructure et d’ingénierie. Pour répondre à ce défi, nous introduisons UI-Simulator, un paradigme évolutif qui génère des états et des transitions structurés d’interface utilisateur afin de synthétiser des trajectoires d’entraînement à grande échelle. Notre paradigme intègre un simulateur de monde numérique pour produire des états d’UI variés, un processus de déploiement guidé pour une exploration cohérente, et un enveloppeur de trajectoires qui génère des trajectoires de haute qualité et diversifiées pour l’entraînement des agents. Nous proposons également UI-Simulator-Grow, une stratégie de mise à l’échelle ciblée qui permet un déploiement plus rapide et plus efficace en priorisant les tâches à fort impact et en synthétisant des variantes de trajectoires informatives. Les expériences menées sur WebArena et AndroidWorld montrent que UI-Simulator rivalise ou surpasse les agents open-source entraînés sur des interfaces utilisateur réelles, avec une robustesse significativement meilleure, malgré l’utilisation de modèles enseignants moins performants. De plus, UI-Simulator-Grow atteint les performances de Llama-3-70B-Instruct en utilisant uniquement Llama-3-8B-Instruct comme modèle de base, mettant en évidence le potentiel du paradigme de synthèse ciblée pour améliorer continuellement et efficacement les agents numériques.

English

Digital agents require diverse, large-scale UI trajectories to generalize across real-world tasks, yet collecting such data is prohibitively expensive in both human annotation, infra and engineering perspectives. To this end, we introduce UI-Simulator, a scalable paradigm that generates structured UI states and transitions to synthesize training trajectories at scale. Our paradigm integrates a digital world simulator for diverse UI states, a guided rollout process for coherent exploration, and a trajectory wrapper that produces high-quality and diverse trajectories for agent training. We further propose UI-Simulator-Grow, a targeted scaling strategy that enables more rapid and data-efficient scaling by prioritizing high-impact tasks and synthesizes informative trajectory variants. Experiments on WebArena and AndroidWorld show that UI-Simulator rivals or surpasses open-source agents trained on real UIs with significantly better robustness, despite using weaker teacher models. Moreover, UI-Simulator-Grow matches the performance of Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model, highlighting the potential of targeted synthesis scaling paradigm to continuously and efficiently enhance the digital agents.

Les LLM en tant que simulateurs évolutifs et polyvalents pour l'entraînement d'agents numériques

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

papers.abstract

Support