Sichere und skalierbare Web-Agenten-Lernverfahren mittels rekonstruierter Websites
Safe and Scalable Web Agent Learning via Recreated Websites
March 11, 2026
Autoren: Hyungjoo Chae, Jungsoo Park, Alan Ritter
cs.AI
Zusammenfassung
Das Training autonomer Web-Agenten wird grundlegend durch die Umgebungen limitiert, in denen sie lernen: Echte Websites sind unsicher zu erkunden, schwer zurückzusetzen und bieten selten überprüfbare Rückmeldungen. Wir stellen VeriEnv vor, ein Framework, das Sprachmodelle als Umgebungsersteller behandelt und automatisch reale Websites in vollständig ausführbare, verifizierbare synthetische Umgebungen klont. Durch die Bereitstellung von kontrolliertem internem Zugriff via eines Python-SDK ermöglicht VeriEnv Agenten, sich selbst Aufgaben mit deterministischen, programmatisch überprüfbaren Belohnungen zu generieren, was die Abhängigkeit von heuristischen oder LLM-basierten Bewertungen beseitigt. Dieses Design entkoppelt das Lernen der Agenten von unsicheren Interaktionen in der realen Welt und ermöglicht gleichzeitig skalierbare Selbstentwicklung durch Umgebungserweiterung. In Experimenten mit Web-Agenten-Benchmarks zeigen wir, dass mit VeriEnv trainierte Agenten auf ungesehene Websites generalisieren, websitespezifische Meisterschaft durch sich selbst weiterentwickelndes Training erreichen und von der Skalierung der Anzahl an Trainingsumgebungen profitieren. Code und Ressourcen werden bei Annahme unter https://github.com/kyle8581/VeriEnv veröffentlicht.
English
Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.