Agenti Web Sicuri e Scalabili tramite Siti Web Ricreati

Abstract

L'addestramento di agenti web autonomi è fondamentalmente limitato dagli ambienti da cui apprendono: i siti web del mondo reale sono pericolosi da esplorare, difficili da ripristinare e raramente forniscono feedback verificabile. Proponiamo VeriEnv, un framework che tratta i modelli linguistici come creatori di ambienti, clonando automaticamente siti web reali in ambienti sintetici completamente eseguibili e verificabili. Esponendo un accesso interno controllato tramite un SDK Python, VeriEnv consente agli agenti di auto-generare compiti con ricompense deterministiche e verificabili a livello di codice, eliminando la dipendenza da giudizi euristici o basati su LLM. Questo progetto disaccoppia l'apprendimento degli agenti dall'interazione insicura con il mondo reale, consentendo al contempo un'auto-evoluzione scalabile attraverso l'espansione dell'ambiente. Tramite esperimenti su benchmark di agenti web, dimostriamo che gli agenti addestrati con VeriEnv generalizzano su siti web non visti, raggiungono una padronanza specifica del sito attraverso un addestramento auto-evolutivo e beneficiano della scalabilità del numero di ambienti di addestramento. Il codice e le risorse saranno rilasciati su https://github.com/kyle8581/VeriEnv al momento dell'accettazione.

English

Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.

Agenti Web Sicuri e Scalabili tramite Siti Web Ricreati

Safe and Scalable Web Agent Learning via Recreated Websites

Abstract

Support