Agente Web Seguro e Escalável: Aprendizado por meio de Websites Recriados

Resumo

O treinamento de agentes web autónomos é fundamentalmente limitado pelos ambientes a partir dos quais aprendem: os sites do mundo real são inseguros para explorar, difíceis de reiniciar e raramente fornecem *feedback* verificável. Propomos o VeriEnv, uma estrutura que trata os modelos de linguagem como criadores de ambientes, clonando automaticamente sites do mundo real em ambientes sintéticos totalmente executáveis e verificáveis. Ao expor acesso interno controlado através de um SDK em Python, o VeriEnv permite que os agentes auto-gerem tarefas com recompensas determinísticas e verificáveis programaticamente, eliminando a dependência de avaliadores baseados em heurísticas ou em LLM. Este projeto desacopla a aprendizagem do agente da interação insegura com o mundo real, permitindo simultaneamente uma auto-evolução escalável através da expansão do ambiente. Através de experiências em benchmarks de agentes web, mostramos que os agentes treinados com o VeriEnv generalizam para sites não vistos, alcançam domínio específico do site através de treino auto-evolutivo e beneficiam da escalabilidade do número de ambientes de treino. O código e os recursos serão disponibilizados em https://github.com/kyle8581/VeriEnv após aceitação.

English

Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.