웹 에이전트 역량의 구조적 증류가 일반화를 가능하게 한다
Structured Distillation of Web Agent Capabilities Enables Generalization
April 9, 2026
저자: Xing Han Lù, Siva Reddy
cs.AI
초록
최첨단 대규모 언어 모델(LLM)은 복잡한 웹사이트를 탐색할 수 있지만, 높은 비용과 타사 API 의존성으로 인해 현지 배포가 어렵습니다. 우리는 인간 주석자 역할에 비유하여 웹 에이전트를 위한 합성 궤적 생성 과정을 구조화하는 '주석자로서의 에이전트(Agent-as-Annotators)' 프레임워크를 소개합니다. 이 프레임워크는 작업 설계자, 주석자, 감독자 역할을 모듈식 LLM 구성 요소로 대체합니다. 교사 모델로 Gemini 3 Pro를 사용하여 6가지 웹 환경에서 3,000개의 궤적을 생성하고, 품질 필터링을 통과한 2,322개 궤적으로 90억 개 매개변수의 학생 모델을 순수 지도 학습으로 미세 조정했습니다. 결과 모델은 WebArena에서 41.5%를 달성하여 동일 평가 프로토콜 하에서 Claude 3.5 Sonnet(36.0%) 및 GPT-4o(31.5%)와 같은 폐쇄형 모델을 능가했으며, 기존 최고 오픈 가중치 결과(Go-Browse, 21.7%)의 거의 두 배 성능을 보였습니다. 이 능력은 학습 과정에서 한 번도 접하지 않은 기업 플랫폼인 WorkArena L1에서 18.2%p 향상된 성능을 포함하여 본 적 없는 환경으로도 전이되었으며, 추가 벤치마크 3곳에서도 일관된 성능 향상을 보였습니다. ablation 연구를 통해 Judge 필터링, 평가 힌트, 추론 흔적 등 각 파이프라인 구성 요소가 의미 있는 성능 향상에 기여함을 확인했습니다. 이러한 결과는 단일 최첨단 교사 모델의 구조화된 궤적 합성만으로도 경쟁력 있고 현지 배포 가능한 웹 에이전트를 생산하기에 충분함을 입증합니다. 프로젝트 페이지: https://agent-as-annotators.github.io
English
Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io