LLM как масштабируемые универсальные симуляторы для обучения развивающихся цифровых агентов

Аннотация

Цифровым агентам требуются разнообразные и масштабные траектории взаимодействия с пользовательским интерфейсом (UI) для обобщения в реальных задачах, однако сбор таких данных чрезвычайно затратен с точки зрения человеческой аннотации, инфраструктуры и инженерных ресурсов. В связи с этим мы представляем UI-Simulator — масштабируемую парадигму, которая генерирует структурированные состояния и переходы UI для синтеза обучающих траекторий в больших масштабах. Наша парадигма объединяет симулятор цифрового мира для создания разнообразных состояний UI, управляемый процесс развертывания для согласованного исследования и обертку траекторий, которая создает высококачественные и разнообразные траектории для обучения агентов. Мы также предлагаем UI-Simulator-Grow — стратегию целенаправленного масштабирования, которая позволяет ускорить и повысить эффективность масштабирования за счет приоритизации задач с высокой значимостью и синтеза информативных вариантов траекторий. Эксперименты на WebArena и AndroidWorld показывают, что UI-Simulator конкурирует или превосходит открытые агенты, обученные на реальных UI, демонстрируя значительно лучшую устойчивость, несмотря на использование менее мощных моделей-учителей. Более того, UI-Simulator-Grow достигает производительности Llama-3-70B-Instruct, используя только Llama-3-8B-Instruct в качестве базовой модели, что подчеркивает потенциал стратегии целенаправленного синтеза для непрерывного и эффективного улучшения цифровых агентов.

English

Digital agents require diverse, large-scale UI trajectories to generalize across real-world tasks, yet collecting such data is prohibitively expensive in both human annotation, infra and engineering perspectives. To this end, we introduce UI-Simulator, a scalable paradigm that generates structured UI states and transitions to synthesize training trajectories at scale. Our paradigm integrates a digital world simulator for diverse UI states, a guided rollout process for coherent exploration, and a trajectory wrapper that produces high-quality and diverse trajectories for agent training. We further propose UI-Simulator-Grow, a targeted scaling strategy that enables more rapid and data-efficient scaling by prioritizing high-impact tasks and synthesizes informative trajectory variants. Experiments on WebArena and AndroidWorld show that UI-Simulator rivals or surpasses open-source agents trained on real UIs with significantly better robustness, despite using weaker teacher models. Moreover, UI-Simulator-Grow matches the performance of Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model, highlighting the potential of targeted synthesis scaling paradigm to continuously and efficiently enhance the digital agents.

LLM как масштабируемые универсальные симуляторы для обучения развивающихся цифровых агентов

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

Аннотация

Support