Sintetizando Dados Agentes para Agentes Web com Mecanismos de Aprimoramento Progressivo de Dificuldade
Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms
October 15, 2025
Autores: Shrey Pandit, Xuan-Phi Nguyen, Yifei Ming, Austin Xu, Jiayu Wang, Caiming Xiong, Shafiq Joty
cs.AI
Resumo
Agentes de 'pesquisa profunda' baseados na web visam resolver tarefas complexas de questionamento e resposta por meio de interações de longo prazo com ferramentas online. Essas tarefas permanecem desafiadoras, pois os modelos de linguagem subjacentes frequentemente não são otimizados para raciocínio e exploração de longo prazo. Trabalhos anteriores propuseram fluxos de trabalho para a construção de conjuntos de dados de ajuste fino de instruções, muitas vezes utilizando grafos de conhecimento. No entanto, tais métodos geralmente carecem de controle refinado sobre dificuldade e qualidade, gerando dados sintéticos que não capturam a complexidade necessária para o raciocínio de longo prazo. Além disso, muitos estudos confundem os efeitos dos dados e do treinamento ao comparar modelos treinados sob diferentes receitas de otimização, dificultando o isolamento e a avaliação da eficácia dos próprios dados. Introduzimos um pipeline de síntese de dados de duas vertentes que gera pares de perguntas e respostas aumentando progressivamente a complexidade da tarefa até que um agente web de linha de base falhe. O agente de linha de base desempenha múltiplos papéis nesse processo: tentando responder às perguntas, validando a factualidade, verificando respostas alternativas e aplicando filtros. Para avaliar a eficácia de nossos métodos de síntese, adotamos uma configuração de treinamento controlada baseada na destilação de agentes web robustos. Experimentos em vários benchmarks baseados na web mostram que nosso conjunto de dados — apesar de menor — permite o treinamento de agentes web mais eficazes do que os conjuntos de dados existentes. Em particular, nossos dados exibem o dobro da diversidade em ações de uso de ferramentas, permitindo que os modelos treinados com eles alcancem desempenho superior enquanto evitam comportamentos repetitivos de chamada de ferramentas.
English
Web-based 'deep research' agents aim to solve complex question - answering
tasks through long-horizon interactions with online tools. These tasks remain
challenging, as the underlying language models are often not optimized for
long-horizon reasoning and exploration. Prior work has proposed workflows for
constructing instruction-tuning datasets, often leveraging knowledge graphs.
However, such methods typically lack fine-grained control over difficulty and
quality, yielding synthetic data that falls short of capturing the complexity
required for long-horizon reasoning. Furthermore, many studies conflate data
and training effects by comparing models trained under different optimization
recipes, making it difficult to isolate and evaluate the effectiveness of the
data itself. We introduce a two-pronged data synthesis pipeline that generates
question - answer pairs by progressively increasing task complexity until a
frontier baseline web agent fails. The baseline agent plays multiple roles in
this process: attempting the questions, validating factuality, checking for
alternative answers, and enforcing filtering. To evaluate the effectiveness of
our synthesis methods, we adopt a controlled training setup based on
distillation from strong web agents. Experiments across multiple web-based
benchmarks show that our dataset - despite being smaller - enables the training
of more effective web agents than existing datasets. In particular, our data
exhibits twice the diversity in tool-use actions, allowing models trained on it
to achieve stronger performance while avoiding repetitive tool-calling
behaviors.