ChatPaper.aiChatPaper

LLM как масштабируемые универсальные симуляторы для обучения развивающихся цифровых агентов

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

October 16, 2025
Авторы: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang
cs.AI

Аннотация

Цифровым агентам требуются разнообразные и масштабные траектории взаимодействия с пользовательским интерфейсом (UI) для обобщения в реальных задачах, однако сбор таких данных чрезвычайно затратен с точки зрения человеческой аннотации, инфраструктуры и инженерных ресурсов. В связи с этим мы представляем UI-Simulator — масштабируемую парадигму, которая генерирует структурированные состояния и переходы UI для синтеза обучающих траекторий в больших масштабах. Наша парадигма объединяет симулятор цифрового мира для создания разнообразных состояний UI, управляемый процесс развертывания для согласованного исследования и обертку траекторий, которая создает высококачественные и разнообразные траектории для обучения агентов. Мы также предлагаем UI-Simulator-Grow — стратегию целенаправленного масштабирования, которая позволяет ускорить и повысить эффективность масштабирования за счет приоритизации задач с высокой значимостью и синтеза информативных вариантов траекторий. Эксперименты на WebArena и AndroidWorld показывают, что UI-Simulator конкурирует или превосходит открытые агенты, обученные на реальных UI, демонстрируя значительно лучшую устойчивость, несмотря на использование менее мощных моделей-учителей. Более того, UI-Simulator-Grow достигает производительности Llama-3-70B-Instruct, используя только Llama-3-8B-Instruct в качестве базовой модели, что подчеркивает потенциал стратегии целенаправленного синтеза для непрерывного и эффективного улучшения цифровых агентов.
English
Digital agents require diverse, large-scale UI trajectories to generalize across real-world tasks, yet collecting such data is prohibitively expensive in both human annotation, infra and engineering perspectives. To this end, we introduce UI-Simulator, a scalable paradigm that generates structured UI states and transitions to synthesize training trajectories at scale. Our paradigm integrates a digital world simulator for diverse UI states, a guided rollout process for coherent exploration, and a trajectory wrapper that produces high-quality and diverse trajectories for agent training. We further propose UI-Simulator-Grow, a targeted scaling strategy that enables more rapid and data-efficient scaling by prioritizing high-impact tasks and synthesizes informative trajectory variants. Experiments on WebArena and AndroidWorld show that UI-Simulator rivals or surpasses open-source agents trained on real UIs with significantly better robustness, despite using weaker teacher models. Moreover, UI-Simulator-Grow matches the performance of Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model, highlighting the potential of targeted synthesis scaling paradigm to continuously and efficiently enhance the digital agents.
PDF52October 17, 2025