ChatPaper.aiChatPaper

Sintetizando Dados Agentes para Agentes Web com Mecanismos de Aprimoramento Progressivo de Dificuldade

Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms

October 15, 2025
Autores: Shrey Pandit, Xuan-Phi Nguyen, Yifei Ming, Austin Xu, Jiayu Wang, Caiming Xiong, Shafiq Joty
cs.AI

Resumo

Agentes de 'pesquisa profunda' baseados na web visam resolver tarefas complexas de questionamento e resposta por meio de interações de longo prazo com ferramentas online. Essas tarefas permanecem desafiadoras, pois os modelos de linguagem subjacentes frequentemente não são otimizados para raciocínio e exploração de longo prazo. Trabalhos anteriores propuseram fluxos de trabalho para a construção de conjuntos de dados de ajuste fino de instruções, muitas vezes utilizando grafos de conhecimento. No entanto, tais métodos geralmente carecem de controle refinado sobre dificuldade e qualidade, gerando dados sintéticos que não capturam a complexidade necessária para o raciocínio de longo prazo. Além disso, muitos estudos confundem os efeitos dos dados e do treinamento ao comparar modelos treinados sob diferentes receitas de otimização, dificultando o isolamento e a avaliação da eficácia dos próprios dados. Introduzimos um pipeline de síntese de dados de duas vertentes que gera pares de perguntas e respostas aumentando progressivamente a complexidade da tarefa até que um agente web de linha de base falhe. O agente de linha de base desempenha múltiplos papéis nesse processo: tentando responder às perguntas, validando a factualidade, verificando respostas alternativas e aplicando filtros. Para avaliar a eficácia de nossos métodos de síntese, adotamos uma configuração de treinamento controlada baseada na destilação de agentes web robustos. Experimentos em vários benchmarks baseados na web mostram que nosso conjunto de dados — apesar de menor — permite o treinamento de agentes web mais eficazes do que os conjuntos de dados existentes. Em particular, nossos dados exibem o dobro da diversidade em ações de uso de ferramentas, permitindo que os modelos treinados com eles alcancem desempenho superior enquanto evitam comportamentos repetitivos de chamada de ferramentas.
English
Web-based 'deep research' agents aim to solve complex question - answering tasks through long-horizon interactions with online tools. These tasks remain challenging, as the underlying language models are often not optimized for long-horizon reasoning and exploration. Prior work has proposed workflows for constructing instruction-tuning datasets, often leveraging knowledge graphs. However, such methods typically lack fine-grained control over difficulty and quality, yielding synthetic data that falls short of capturing the complexity required for long-horizon reasoning. Furthermore, many studies conflate data and training effects by comparing models trained under different optimization recipes, making it difficult to isolate and evaluate the effectiveness of the data itself. We introduce a two-pronged data synthesis pipeline that generates question - answer pairs by progressively increasing task complexity until a frontier baseline web agent fails. The baseline agent plays multiple roles in this process: attempting the questions, validating factuality, checking for alternative answers, and enforcing filtering. To evaluate the effectiveness of our synthesis methods, we adopt a controlled training setup based on distillation from strong web agents. Experiments across multiple web-based benchmarks show that our dataset - despite being smaller - enables the training of more effective web agents than existing datasets. In particular, our data exhibits twice the diversity in tool-use actions, allowing models trained on it to achieve stronger performance while avoiding repetitive tool-calling behaviors.
PDF32December 21, 2025