ChatPaper.aiChatPaper

Безопасное и масштабируемое обучение веб-агентов с помощью воссозданных веб-сайтов

Safe and Scalable Web Agent Learning via Recreated Websites

March 11, 2026
Авторы: Hyungjoo Chae, Jungsoo Park, Alan Ritter
cs.AI

Аннотация

Обучение автономных веб-агентов принципиально ограничено средами, в которых они обучаются: исследование реальных веб-сайтов небезопасно, их сложно сбрасывать в исходное состояние, и они редко предоставляют проверяемую обратную связь. Мы предлагаем VeriEnv — фреймворк, который использует языковые модели в качестве создателей сред, автоматически клонируя реальные веб-сайты в полностью исполняемые, верифицируемые синтетические среды. Предоставляя контролируемый внутренний доступ через Python SDK, VeriEnv позволяет агентам самостоятельно генерировать задачи с детерминированными, программно проверяемыми вознаграждениями, устраняя зависимость от эвристических или основанных на LLM оценщиков. Такой подход отделяет обучение агентов от небезопасного взаимодействия с реальным миром, одновременно обеспечивая масштабируемое саморазвитие за счёт расширения сред. В экспериментах на бенчмарках для веб-агентов мы показываем, что агенты, обученные с помощью VeriEnv, обобщают знания на незнакомые сайты, достигают мастерства в работе с конкретными сайтами через саморазвивающееся обучение и получают преимущества от масштабирования количества обучающих сред. Код и ресурсы будут опубликованы по адресу https://github.com/kyle8581/VeriEnv после принятия статьи.
English
Training autonomous web agents is fundamentally limited by the environments they learn from: real-world websites are unsafe to explore, hard to reset, and rarely provide verifiable feedback. We propose VeriEnv, a framework that treats language models as environment creators, automatically cloning real-world websites into fully executable, verifiable synthetic environments. By exposing controlled internal access via a Python SDK, VeriEnv enables agents to self-generate tasks with deterministic, programmatically verifiable rewards, eliminating reliance on heuristic or LLM-based judges. This design decouples agent learning from unsafe real-world interaction while enabling scalable self-evolution through environment expansion. Through experiments on web agent benchmarks, we show that agents trained with VeriEnv generalize to unseen websites, achieve site-specific mastery through self-evolving training, and benefit from scaling the number of training environments. Code and resources will be released at https://github.com/kyle8581/VeriEnv upon acceptance.
PDF212March 18, 2026