ChatPaper.aiChatPaper

Agent Web Apprenant Sûr et Évolutif par la Recréation de Sites Web

Safe and Scalable Web Agent Learning via Recreated Websites

March 11, 2026
Auteurs: Hyungjoo Chae, Jungsoo Park, Alan Ritter
cs.AI

Résumé

L'entraînement d'agents web autonomes est fondamentalement limité par les environnements dont ils tirent leur apprentissage : les sites web réels sont dangereux à explorer, difficiles à réinitialiser et fournissent rarement un retour d'information vérifiable. Nous proposons VeriEnv, un cadre qui utilise les modèles de langage comme créateurs d'environnements, en clonant automatiquement des sites web réels en environnements synthétiques entièrement exécutables et vérifiables. En exposant un accès interne contrôlé via un SDK Python, VeriEnv permet aux agents de générer automatiquement des tâches avec des récompenses déterministes et vérifiables par programme, éliminant ainsi la dépendance à l'égard d'évaluateurs heuristiques ou basés sur des LLM. Cette conception découple l'apprentissage de l'agent des interactions risquées avec le monde réel tout en permettant une auto-évolution évolutive grâce à l'expansion de l'environnement. Par des expériences sur des benchmarks d'agents web, nous montrons que les agents entraînés avec VeriEnv se généralisent à des sites web non vus, atteignent une maîtrise spécifique aux sites via un entraînement auto-évolutif et bénéficient de la mise à l'échelle du nombre d'environnements d'entraînement. Le code et les ressources seront publiés à l'adresse https://github.com/kyle8581/VeriEnv après acceptation.
English
Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.
PDF212March 18, 2026