AutoWebWorld: 有限状態機械による無限の検証可能なWeb環境の合成
AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines
February 15, 2026
著者: Yifan Wu, Yiran Peng, Yiyu Chen, Jianhao Ruan, Zijie Zhuang, Cheng Yang, Jiayi Zhang, Man Chen, Yenchi Tseng, Zhaoyang Yu, Liang Chen, Yuyao Zhai, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
要旨
自律型Web GUIエージェントの性能は、その学習データの質と量に大きく依存します。しかし、根本的なボトルネックが存在します。実世界のウェブサイトからインタラクション軌跡を収集するにはコストがかかり、検証も困難です。基礎となる状態遷移は隠蔽されているため、ステップ単位の正しさを評価するには、一貫性のない高コストな外部検証器に依存せざるを得ません。この問題に対処するため、我々はAutoWebWorldを提案します。これは、ウェブ環境を有限状態機械(FSM)としてモデル化し、コーディングエージェントを用いてFSMを対話型ウェブサイトに変換することで、制御可能かつ検証可能なウェブ環境を合成する新しいフレームワークです。状態遷移が暗黙的である実ウェブサイトとは異なり、AutoWebWorldはすべての状態、アクション、遷移規則を明示的に定義します。これにより、プログラムによる検証が可能になります。アクションの正しさは事前定義された規則に対してチェックされ、タスクの成功はFSMグラフ内の目標状態への到達によって確認されます。AutoWebWorldは完全自動化された検索・検証パイプラインを実現し、29の多様なウェブ環境から11,663件以上の検証済み軌跡を軌跡あたりわずか0.04ドルで生成します。この合成データで学習することで、実世界での性能が大幅に向上します。我々の7BパラメータのWeb GUIエージェントは、WebVoyagerにおいて15ステップ以内ですべてのベースラインを上回りました。さらに、明確なスケーリング則が観察されました。合成データ量が増加するにつれて、WebVoyagerとOnline-Mind2Webにおける性能が一貫して向上しました。
English
The performance of autonomous Web GUI agents heavily relies on the quality and quantity of their training data. However, a fundamental bottleneck persists: collecting interaction trajectories from real-world websites is expensive and difficult to verify. The underlying state transitions are hidden, leading to reliance on inconsistent and costly external verifiers to evaluate step-level correctness. To address this, we propose AutoWebWorld, a novel framework for synthesizing controllable and verifiable web environments by modeling them as Finite State Machines (FSMs) and use coding agents to translate FSMs into interactive websites. Unlike real websites, where state transitions are implicit, AutoWebWorld explicitly defines all states, actions, and transition rules. This enables programmatic verification: action correctness is checked against predefined rules, and task success is confirmed by reaching a goal state in the FSM graph. AutoWebWorld enables a fully automated search-and-verify pipeline, generating over 11,663 verified trajectories from 29 diverse web environments at only $0.04 per trajectory. Training on this synthetic data significantly boosts real-world performance. Our 7B Web GUI agent outperforms all baselines within 15 steps on WebVoyager. Furthermore, we observe a clear scaling law: as the synthetic data volume increases, performance on WebVoyager and Online-Mind2Web consistently improves.