LLM을 확장 가능한 범용 시뮬레이터로 활용한 진화형 디지털 에이전트 훈련
LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
October 16, 2025
저자: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang
cs.AI
초록
디지털 에이전트가 실제 세계의 다양한 작업에 일반화하기 위해서는 대규모의 다양한 UI 궤적 데이터가 필요하지만, 이러한 데이터를 수집하는 것은 인간 주석, 인프라 및 엔지니어링 측면에서 매우 비용이 많이 듭니다. 이를 위해 우리는 UI-Simulator를 소개합니다. 이는 구조화된 UI 상태와 전이를 생성하여 대규모로 훈련 궤적을 합성할 수 있는 확장 가능한 패러다임입니다. 우리의 패러다임은 다양한 UI 상태를 위한 디지털 세계 시뮬레이터, 일관된 탐색을 위한 가이드된 롤아웃 프로세스, 그리고 에이전트 훈련을 위한 고품질의 다양한 궤적을 생성하는 궤적 래퍼를 통합합니다. 또한, 우리는 UI-Simulator-Grow를 제안합니다. 이는 고영향 작업을 우선시하고 정보성이 높은 궤적 변형을 합성함으로써 더 빠르고 데이터 효율적인 확장을 가능하게 하는 전략입니다. WebArena와 AndroidWorld에서의 실험 결과, UI-Simulator는 실제 UI에서 훈련된 오픈소스 에이전트를 능가하거나 동등한 성능을 보이며, 더 나은 견고성을 보였습니다. 또한, UI-Simulator-Grow는 Llama-3-8B-Instruct를 기본 모델로 사용하면서도 Llama-3-70B-Instruct의 성능을 따라잡아, 목표 합성 확장 패러다임이 디지털 에이전트를 지속적이고 효율적으로 향상시킬 수 있는 잠재력을 강조합니다.
English
Digital agents require diverse, large-scale UI trajectories to generalize
across real-world tasks, yet collecting such data is prohibitively expensive in
both human annotation, infra and engineering perspectives. To this end, we
introduce UI-Simulator, a scalable paradigm that generates
structured UI states and transitions to synthesize training trajectories at
scale. Our paradigm integrates a digital world simulator for diverse UI states,
a guided rollout process for coherent exploration, and a trajectory wrapper
that produces high-quality and diverse trajectories for agent training. We
further propose UI-Simulator-Grow, a targeted scaling strategy that
enables more rapid and data-efficient scaling by prioritizing high-impact tasks
and synthesizes informative trajectory variants. Experiments on WebArena and
AndroidWorld show that UI-Simulator rivals or surpasses open-source agents
trained on real UIs with significantly better robustness, despite using weaker
teacher models. Moreover, UI-Simulator-Grow matches the performance of
Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model,
highlighting the potential of targeted synthesis scaling paradigm to
continuously and efficiently enhance the digital agents.