ChatPaper.aiChatPaper

LLMs como simuladores escalables y de propósito general para la formación de agentes digitales en evolución

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

October 16, 2025
Autores: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang
cs.AI

Resumen

Los agentes digitales requieren trayectorias de interfaz de usuario (UI) diversas y a gran escala para generalizar en tareas del mundo real, sin embargo, la recopilación de dichos datos es prohibitivamente costosa desde las perspectivas de anotación humana, infraestructura e ingeniería. Con este fin, presentamos UI-Simulator, un paradigma escalable que genera estados y transiciones estructurados de UI para sintetizar trayectorias de entrenamiento a gran escala. Nuestro paradigma integra un simulador de mundo digital para estados de UI diversos, un proceso de despliegue guiado para una exploración coherente y un envoltorio de trayectorias que produce trayectorias de alta calidad y diversidad para el entrenamiento de agentes. Además, proponemos UI-Simulator-Grow, una estrategia de escalado dirigido que permite un escalado más rápido y eficiente en términos de datos al priorizar tareas de alto impacto y sintetizar variantes informativas de trayectorias. Los experimentos en WebArena y AndroidWorld muestran que UI-Simulator rivaliza o supera a los agentes de código abierto entrenados en UIs reales con una robustez significativamente mejor, a pesar de utilizar modelos de enseñanza más débiles. Además, UI-Simulator-Grow iguala el rendimiento de Llama-3-70B-Instruct utilizando solo Llama-3-8B-Instruct como modelo base, destacando el potencial del paradigma de síntesis dirigida para mejorar de manera continua y eficiente a los agentes digitales.
English
Digital agents require diverse, large-scale UI trajectories to generalize across real-world tasks, yet collecting such data is prohibitively expensive in both human annotation, infra and engineering perspectives. To this end, we introduce UI-Simulator, a scalable paradigm that generates structured UI states and transitions to synthesize training trajectories at scale. Our paradigm integrates a digital world simulator for diverse UI states, a guided rollout process for coherent exploration, and a trajectory wrapper that produces high-quality and diverse trajectories for agent training. We further propose UI-Simulator-Grow, a targeted scaling strategy that enables more rapid and data-efficient scaling by prioritizing high-impact tasks and synthesizes informative trajectory variants. Experiments on WebArena and AndroidWorld show that UI-Simulator rivals or surpasses open-source agents trained on real UIs with significantly better robustness, despite using weaker teacher models. Moreover, UI-Simulator-Grow matches the performance of Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model, highlighting the potential of targeted synthesis scaling paradigm to continuously and efficiently enhance the digital agents.
PDF52October 17, 2025