점진적 난이도 강화 메커니즘을 통한 웹 에이전트를 위한 에이전트 데이터 합성
Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms
October 15, 2025
저자: Shrey Pandit, Xuan-Phi Nguyen, Yifei Ming, Austin Xu, Jiayu Wang, Caiming Xiong, Shafiq Joty
cs.AI
초록
웹 기반 '심층 연구' 에이전트는 온라인 도구와의 장기적 상호작용을 통해 복잡한 질문-응답 작업을 해결하는 것을 목표로 합니다. 이러한 작업은 여전히 도전적인 과제로 남아 있는데, 이는 기본 언어 모델들이 장기적 추론과 탐색에 최적화되어 있지 않기 때문입니다. 기존 연구에서는 주로 지식 그래프를 활용하여 지시 튜닝 데이터셋을 구성하는 워크플로우를 제안해 왔습니다. 그러나 이러한 방법들은 일반적으로 난이도와 품질에 대한 세밀한 통제가 부족하여, 장기적 추론에 필요한 복잡성을 충분히 반영하지 못하는 합성 데이터를 생성하는 한계가 있습니다. 더욱이, 많은 연구들이 서로 다른 최적화 레시피로 훈련된 모델들을 비교함으로써 데이터와 훈련 효과를 혼동하여, 데이터 자체의 효과를 분리하여 평가하기 어렵게 만듭니다. 우리는 작업 복잡성을 점진적으로 증가시켜 프론티어 기준 웹 에이전트가 실패할 때까지 질문-응답 쌍을 생성하는 이중 데이터 합성 파이프라인을 소개합니다. 이 과정에서 기준 에이전트는 여러 역할을 수행합니다: 질문을 시도하고, 사실성을 검증하며, 대체 답변을 확인하고, 필터링을 강제합니다. 우리의 합성 방법의 효과를 평가하기 위해, 강력한 웹 에이전트로부터의 지식 증류를 기반으로 한 통제된 훈련 설정을 채택합니다. 여러 웹 기반 벤치마크에서의 실험 결과, 우리의 데이터셋은 더 작은 규모임에도 불구하고 기존 데이터셋보다 더 효과적인 웹 에이전트 훈련을 가능하게 합니다. 특히, 우리의 데이터는 도구 사용 행동에서 두 배의 다양성을 보여주어, 이를 통해 훈련된 모델들이 반복적인 도구 호출 행동을 피하면서 더 강력한 성능을 달성할 수 있게 합니다.
English
Web-based 'deep research' agents aim to solve complex question - answering
tasks through long-horizon interactions with online tools. These tasks remain
challenging, as the underlying language models are often not optimized for
long-horizon reasoning and exploration. Prior work has proposed workflows for
constructing instruction-tuning datasets, often leveraging knowledge graphs.
However, such methods typically lack fine-grained control over difficulty and
quality, yielding synthetic data that falls short of capturing the complexity
required for long-horizon reasoning. Furthermore, many studies conflate data
and training effects by comparing models trained under different optimization
recipes, making it difficult to isolate and evaluate the effectiveness of the
data itself. We introduce a two-pronged data synthesis pipeline that generates
question - answer pairs by progressively increasing task complexity until a
frontier baseline web agent fails. The baseline agent plays multiple roles in
this process: attempting the questions, validating factuality, checking for
alternative answers, and enforcing filtering. To evaluate the effectiveness of
our synthesis methods, we adopt a controlled training setup based on
distillation from strong web agents. Experiments across multiple web-based
benchmarks show that our dataset - despite being smaller - enables the training
of more effective web agents than existing datasets. In particular, our data
exhibits twice the diversity in tool-use actions, allowing models trained on it
to achieve stronger performance while avoiding repetitive tool-calling
behaviors.