ChatPaper.aiChatPaper

LLMs como Simuladores Escaláveis e de Propósito Geral para o Treinamento de Agentes Digitais em Evolução

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

October 16, 2025
Autores: Yiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang
cs.AI

Resumo

Agentes digitais exigem trajetórias de interface do usuário (UI) diversas e em grande escala para generalizar em tarefas do mundo real, mas a coleta desses dados é proibitivamente cara em termos de anotação humana, infraestrutura e engenharia. Para isso, apresentamos o UI-Simulator, um paradigma escalável que gera estados e transições estruturados de UI para sintetizar trajetórias de treinamento em larga escala. Nosso paradigma integra um simulador de mundo digital para estados de UI diversos, um processo de exploração guiada para uma exploração coerente e um wrapper de trajetória que produz trajetórias de alta qualidade e diversificadas para o treinamento de agentes. Além disso, propomos o UI-Simulator-Grow, uma estratégia de escalonamento direcionada que permite uma escalabilidade mais rápida e eficiente em termos de dados, priorizando tarefas de alto impacto e sintetizando variantes informativas de trajetórias. Experimentos no WebArena e AndroidWorld mostram que o UI-Simulator rivaliza ou supera agentes de código aberto treinados em UIs reais, com uma robustez significativamente melhor, apesar de usar modelos de professor mais fracos. Além disso, o UI-Simulator-Grow iguala o desempenho do Llama-3-70B-Instruct usando apenas o Llama-3-8B-Instruct como modelo base, destacando o potencial do paradigma de síntese direcionada para aprimorar continuamente e de forma eficiente os agentes digitais.
English
Digital agents require diverse, large-scale UI trajectories to generalize across real-world tasks, yet collecting such data is prohibitively expensive in both human annotation, infra and engineering perspectives. To this end, we introduce UI-Simulator, a scalable paradigm that generates structured UI states and transitions to synthesize training trajectories at scale. Our paradigm integrates a digital world simulator for diverse UI states, a guided rollout process for coherent exploration, and a trajectory wrapper that produces high-quality and diverse trajectories for agent training. We further propose UI-Simulator-Grow, a targeted scaling strategy that enables more rapid and data-efficient scaling by prioritizing high-impact tasks and synthesizes informative trajectory variants. Experiments on WebArena and AndroidWorld show that UI-Simulator rivals or surpasses open-source agents trained on real UIs with significantly better robustness, despite using weaker teacher models. Moreover, UI-Simulator-Grow matches the performance of Llama-3-70B-Instruct using only Llama-3-8B-Instruct as the base model, highlighting the potential of targeted synthesis scaling paradigm to continuously and efficiently enhance the digital agents.
PDF52October 17, 2025