Adaptação de Agentes Web com Supervisão Sintética

Resumo

Os agentes web têm dificuldade em se adaptar a novos sites devido à escassez de tarefas e demonstrações específicas do ambiente. Trabalhos recentes exploraram a geração de dados sintéticos para enfrentar este desafio, porém, eles sofrem com problemas de qualidade dos dados, onde as tarefas sintetizadas contêm alucinações que não podem ser executadas, e as trajetórias coletadas são ruidosas com ações redundantes ou desalinhadas. Neste artigo, propomos o SynthAgent, uma estrutura de supervisão totalmente sintética que visa melhorar a qualidade dos dados sintéticos através do refinamento dual de tarefas e trajetórias. Nossa abordagem começa sintetizando tarefas diversas por meio de exploração categorizada de elementos web, garantindo uma cobertura eficiente do ambiente alvo. Durante a coleta de trajetórias, refinamos as tarefas quando são detectados conflitos com observações reais, mitigando alucinações enquanto mantemos a consistência da tarefa. Após a coleta, realizamos o refinamento da trajetória com um contexto global para mitigar possíveis ruídos ou desalinhamentos. Finalmente, ajustamos agentes web de código aberto nos dados sintéticos refinados para adaptá-los ao ambiente alvo. Resultados experimentais demonstram que o SynthAgent supera os métodos existentes de dados sintéticos, validando a importância da supervisão sintética de alta qualidade. O código estará publicamente disponível em https://github.com/aiming-lab/SynthAgent.

English

Web agents struggle to adapt to new websites due to the scarcity of environment specific tasks and demonstrations. Recent works have explored synthetic data generation to address this challenge, however, they suffer from data quality issues where synthesized tasks contain hallucinations that cannot be executed, and collected trajectories are noisy with redundant or misaligned actions. In this paper, we propose SynthAgent, a fully synthetic supervision framework that aims at improving synthetic data quality via dual refinement of both tasks and trajectories. Our approach begins by synthesizing diverse tasks through categorized exploration of web elements, ensuring efficient coverage of the target environment. During trajectory collection, we refine tasks when conflicts with actual observations are detected, mitigating hallucinations while maintaining task consistency. After collection, we conduct trajectory refinement with a global context to mitigate potential noise or misalignments. Finally, we fine-tune open-source web agents on the refined synthetic data to adapt them to the target environment. Experimental results demonstrate that SynthAgent outperforms existing synthetic data methods, validating the importance of high-quality synthetic supervision. The code will be publicly available at https://github.com/aiming-lab/SynthAgent.