AutoWebWorld: 유한 상태 기계를 통한 무한 검증 가능 웹 환경 합성
AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines
February 15, 2026
저자: Yifan Wu, Yiran Peng, Yiyu Chen, Jianhao Ruan, Zijie Zhuang, Cheng Yang, Jiayi Zhang, Man Chen, Yenchi Tseng, Zhaoyang Yu, Liang Chen, Yuyao Zhai, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
초록
자율 웹 GUI 에이전트의 성능은 학습 데이터의 질과 양에 크게 의존합니다. 그러나 근본적인 병목 현상이 존재합니다. 실제 웹사이트로부터 상호작용 궤적을 수집하는 것은 비용이 많이 들고 검증이 어렵습니다. 내재된 상태 전환은 숨겨져 있어 단계별 정확성을 평가하기 위해 일관성 없고 비용이 큰 외부 검증 도구에 의존해야 합니다. 이를 해결하기 위해 우리는 웹 환경을 유한 상태 기계(FSM)로 모델링하고 코딩 에이전트를 사용해 FSM을 상호작용 가능한 웹사이트로 변환하는, 제어 및 검증이 가능한 웹 환경 합성 프레임워크인 AutoWebWorld를 제안합니다. 상태 전환이 암묵적으로 이루어지는 실제 웹사이트와 달리, AutoWebWorld는 모든 상태, 액션, 전환 규칙을 명시적으로 정의합니다. 이를 통해 프로그램적 검증이 가능해집니다. 액션 정확성은 미리 정의된 규칙에 따라 확인되며, 작업 성공 여부는 FSM 그래프 내 목표 상태 도달을 통해 확인됩니다. AutoWebWorld는 완전 자동화된 탐색-검증 파이프라인을 가능하게 하여, 다양한 29개의 웹 환경으로부터 궤적당 약 0.04달러의 저렴한 비용으로 11,663개 이상의 검증된 궤적을 생성합니다. 이 합성 데이터로 학습하면 실제 웹 환경에서의 성능이 크게 향상됩니다. 우리의 70억 파라미터 웹 GUI 에이전트는 WebVoyager에서 15단계 이내에 모든 기준 모델을 능가했습니다. 더 나아가 합성 데이터량이 증가함에 따라 WebVoyager와 Online-Mind2Web에서의 성능이 지속적으로 향상되는 명확한 스케일링 법칙을 관찰했습니다.
English
The performance of autonomous Web GUI agents heavily relies on the quality and quantity of their training data. However, a fundamental bottleneck persists: collecting interaction trajectories from real-world websites is expensive and difficult to verify. The underlying state transitions are hidden, leading to reliance on inconsistent and costly external verifiers to evaluate step-level correctness. To address this, we propose AutoWebWorld, a novel framework for synthesizing controllable and verifiable web environments by modeling them as Finite State Machines (FSMs) and use coding agents to translate FSMs into interactive websites. Unlike real websites, where state transitions are implicit, AutoWebWorld explicitly defines all states, actions, and transition rules. This enables programmatic verification: action correctness is checked against predefined rules, and task success is confirmed by reaching a goal state in the FSM graph. AutoWebWorld enables a fully automated search-and-verify pipeline, generating over 11,663 verified trajectories from 29 diverse web environments at only $0.04 per trajectory. Training on this synthetic data significantly boosts real-world performance. Our 7B Web GUI agent outperforms all baselines within 15 steps on WebVoyager. Furthermore, we observe a clear scaling law: as the synthetic data volume increases, performance on WebVoyager and Online-Mind2Web consistently improves.