Aprendizaje Seguro y Escalable de Agentes Web mediante Sitios Web Recreados

Resumen

El entrenamiento de agentes web autónomos está fundamentalmente limitado por los entornos en los que aprenden: los sitios web del mundo real son inseguros para explorar, difíciles de restablecer y rara vez proporcionan retroalimentación verificable. Proponemos VeriEnv, un marco que trata a los modelos de lenguaje como creadores de entornos, clonando automáticamente sitios web reales en entornos sintéticos completamente ejecutables y verificables. Al exponer acceso interno controlado mediante un SDK de Python, VeriEnv permite a los agentes auto-generar tareas con recompensas deterministas y verificables mediante programación, eliminando la dependencia de evaluadores basados en heurísticas o LLM. Este diseño desacopla el aprendizaje del agente de la interacción insegura con el mundo real, a la vez que permite la auto-evolución escalable mediante la expansión del entorno. Mediante experimentos en puntos de referencia de agentes web, mostramos que los agentes entrenados con VeriEnv generalizan a sitios web no vistos, logran dominio específico del sitio a través de entrenamiento auto-evolutivo y se benefician del escalado del número de entornos de entrenamiento. El código y los recursos se publicarán en https://github.com/kyle8581/VeriEnv tras la aceptación.

English

Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.

Aprendizaje Seguro y Escalable de Agentes Web mediante Sitios Web Recreados

Safe and Scalable Web Agent Learning via Recreated Websites

Resumen

Support