Veilige en schaalbare webagent-leren via nagemaakte websites

Samenvatting

Het trainen van autonome webagentschappen wordt fundamenteel beperkt door de omgevingen waarvan ze leren: echte websites zijn onveilig om te verkennen, moeilijk te resetten en bieden zelden verifieerbare feedback. Wij stellen VeriEnv voor, een raamwerk dat taalmodellen beschouwt als omgevingscreators, dat automatisch echte websites kloont in volledig uitvoerbare, verifieerbare synthetische omgevingen. Door gecontroleerde interne toegang bloot te leggen via een Python-SDK, stelt VeriEnv agentschappen in staat om zelf taken te genereren met deterministische, programmeerbaar verifieerbare beloningen, waardoor de afhankelijkheid van heuristische of op LLM gebaseerde beoordelaars wordt geëlimineerd. Dit ontwerp ontkoppelt het leren van agentschappen van onveilige interactie in de echte wereld, terwijl schaalbare zelf-evolutie mogelijk wordt gemaakt door omgevingsexpansie. Via experimenten met webagentbenchmarks tonen we aan dat met VeriEnv getrainde agentschappen generaliseren naar onbekende websites, sitespecifieke beheersing bereiken door zelf-evoluerende training en profiteren van het schalen van het aantal trainingsomgevingen. Code en bronnen worden vrijgegeven op https://github.com/kyle8581/VeriEnv na acceptatie.

English

Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.

Veilige en schaalbare webagent-leren via nagemaakte websites

Safe and Scalable Web Agent Learning via Recreated Websites

Samenvatting

Support