AutoWebWorld : Synthèse d'environnements web infinis et vérifiables via des machines à états finis
AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines
February 15, 2026
Auteurs: Yifan Wu, Yiran Peng, Yiyu Chen, Jianhao Ruan, Zijie Zhuang, Cheng Yang, Jiayi Zhang, Man Chen, Yenchi Tseng, Zhaoyang Yu, Liang Chen, Yuyao Zhai, Bang Liu, Chenglin Wu, Yuyu Luo
cs.AI
Résumé
Les performances des agents autonomes d'interface graphique web dépendent fortement de la qualité et de la quantité de leurs données d'entraînement. Cependant, une limitation fondamentale persiste : la collecte de trajectoires d'interaction à partir de sites web réels est coûteuse et difficile à vérifier. Les transitions d'état sous-jacentes étant cachées, cela conduit à une dépendance envers des vérificateurs externes, inconstants et coûteux, pour évaluer la justesse au niveau de chaque étape. Pour résoudre ce problème, nous proposons AutoWebWorld, un nouveau cadre de synthèse d'environnements web contrôlables et vérifiables en les modélisant comme des Machines à États Finis (MEF) et en utilisant des agents de codage pour traduire les MEF en sites web interactifs. Contrairement aux sites web réels où les transitions d'état sont implicites, AutoWebWorld définit explicitement tous les états, actions et règles de transition. Cela permet une vérification programmatique : la justesse d'une action est vérifiée par rapport à des règles prédéfinies, et la réussite d'une tâche est confirmée par l'atteinte d'un état but dans le graphe de la MEF. AutoWebWorld permet un pipeline entièrement automatisé de recherche et de vérification, générant plus de 11 663 trajectoires vérifiées à partir de 29 environnements web diversifiés pour un coût de seulement 0,04 $ par trajectoire. L'entraînement sur ces données synthétiques améliore significativement les performances dans le monde réel. Notre agent Web GUI de 7B surpasse toutes les bases de référence en moins de 15 étapes sur WebVoyager. De plus, nous observons une loi d'échelle claire : à mesure que le volume de données synthétiques augmente, les performances sur WebVoyager et Online-Mind2Web s'améliorent constamment.
English
The performance of autonomous Web GUI agents heavily relies on the quality and quantity of their training data. However, a fundamental bottleneck persists: collecting interaction trajectories from real-world websites is expensive and difficult to verify. The underlying state transitions are hidden, leading to reliance on inconsistent and costly external verifiers to evaluate step-level correctness. To address this, we propose AutoWebWorld, a novel framework for synthesizing controllable and verifiable web environments by modeling them as Finite State Machines (FSMs) and use coding agents to translate FSMs into interactive websites. Unlike real websites, where state transitions are implicit, AutoWebWorld explicitly defines all states, actions, and transition rules. This enables programmatic verification: action correctness is checked against predefined rules, and task success is confirmed by reaching a goal state in the FSM graph. AutoWebWorld enables a fully automated search-and-verify pipeline, generating over 11,663 verified trajectories from 29 diverse web environments at only $0.04 per trajectory. Training on this synthetic data significantly boosts real-world performance. Our 7B Web GUI agent outperforms all baselines within 15 steps on WebVoyager. Furthermore, we observe a clear scaling law: as the synthetic data volume increases, performance on WebVoyager and Online-Mind2Web consistently improves.