ChatPaper.aiChatPaper

LLMを進化するデジタルエージェントトレーニングのためのスケーラブルで汎用的なシミュレータとして

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

October 16, 2025
著者: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang
cs.AI

要旨

デジタルエージェントは、現実世界のタスクに汎化するために多様で大規模なUI軌跡を必要とするが、そのようなデータを収集することは、人間によるアノテーション、インフラ、およびエンジニアリングの観点から非常にコストがかかる。この問題に対処するため、我々はUI-Simulatorを提案する。これは、構造化されたUI状態と遷移を生成し、大規模なトレーニング軌跡を合成するためのスケーラブルなパラダイムである。このパラダイムは、多様なUI状態を生成するデジタルワールドシミュレータ、一貫した探索を可能にするガイド付きロールアウトプロセス、およびエージェントトレーニングのための高品質で多様な軌跡を生成する軌跡ラッパーを統合している。さらに、我々はUI-Simulator-Growを提案する。これは、高影響タスクを優先し、情報量の多い軌跡バリアントを合成することで、より迅速かつデータ効率的なスケーリングを可能にするターゲットスケーリング戦略である。WebArenaとAndroidWorldでの実験により、UI-Simulatorは、より弱い教師モデルを使用しているにもかかわらず、実UIでトレーニングされたオープンソースエージェントに匹敵またはそれを上回る堅牢性を示すことが確認された。さらに、UI-Simulator-Growは、ベースモデルとしてLlama-3-8B-Instructのみを使用しながら、Llama-3-70B-Instructの性能に匹敵し、ターゲット合成スケーリングパラダイムがデジタルエージェントを継続的かつ効率的に強化する可能性を強調している。
English
Digital agents require diverse, large-scale UI trajectories to generalize across real-world tasks, yet collecting such data is prohibitively expensive in both human annotation, infra and engineering perspectives. To this end, we introduce UI-Simulator, a scalable paradigm that generates structured UI states and transitions to synthesize training trajectories at scale. Our paradigm integrates a digital world simulator for diverse UI states, a guided rollout process for coherent exploration, and a trajectory wrapper that produces high-quality and diverse trajectories for agent training. We further propose UI-Simulator-Grow, a targeted scaling strategy that enables more rapid and data-efficient scaling by prioritizing high-impact tasks and synthesizes informative trajectory variants. Experiments on WebArena and AndroidWorld show that UI-Simulator rivals or surpasses open-source agents trained on real UIs with significantly better robustness, despite using weaker teacher models. Moreover, UI-Simulator-Grow matches the performance of Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model, highlighting the potential of targeted synthesis scaling paradigm to continuously and efficiently enhance the digital agents.
PDF52October 17, 2025