Онлайн-обучение навыкам для веб-агентов посредством динамического поиска, основанного на состоянии

Аннотация

Языковые агенты все чаще полагаются на многократно используемые навыки для улучшения многошаговой веб-автоматизации в рамках связанных задач. Растущее направление работ изучает онлайн-обучение навыкам, когда агенты непрерывно извлекают навыки из траекторий предыдущих задач и повторно используют их в будущих задачах на лету. Однако существующие методы в основном повторно используют навыки на уровне задачи: фиксированный набор навыков извлекается на основе начальной инструкции задачи, а затем остается неизменным на протяжении выполнения. Эта статическая стратегия не соответствует выполнению веб-действий, где подходящее следующее действие зависит не только от цели задачи, но и от текущего состояния веб-страницы, которое часто переходит в ситуации, не охватываемые начальными навыками. Для устранения этого пробела мы предлагаем метод State-Grounded Dynamic Retrieval (SGDR) — метод онлайн-обучения навыкам, обеспечивающий пошаговое повторное использование навыков для веб-агентов. SGDR состоит из трех компонентов: процесса извлечения со скользящим окном, который превращает завершенные траектории в многократно используемые подпрограммы, вызываемые в промежуточных состояниях выполнения; двойного текстово-кодового представления, связывающего извлечение навыков с выполнимыми действиями; и механизма динамического извлечения, основанного на состоянии, который сопоставляет навыки как с целью задачи, так и с текущим состоянием веб-страницы. Эксперименты на WebArena в пяти доменах показывают, что SGDR последовательно превосходит сильные базовые линии, достигая средних показателей успешности 37,5% с GPT-4.1 и 24,3% с Qwen3-4B, что соответствует относительным приростам в 10,6% и 10,0% по сравнению с самой сильной базовой линией соответственно. Код доступен по адресу https://github.com/plusnli/skill-dynamic-retrieval.

English

Language agents increasingly rely on reusable skills to improve multi-step web automation across related tasks. A growing line of work studies online skill learning, where agents continually induce skills from previous task trajectories and reuse them in future tasks on the fly. However, existing methods mainly reuse skills at the task-level: a fixed set of skills is retrieved based on the initial task instruction and then held fixed throughout execution. This static strategy is misaligned with web execution, where the appropriate next action depends not only on the task goal but also on the current webpage state, which often transitions into situations that the initial skills fail to cover. To address this gap, we propose State-Grounded Dynamic Retrieval (SGDR), an online skill learning method that enables stepwise skill reuse for web agents. SGDR consists of three components: a sliding-window extraction process that turns completed trajectories into reusable sub-procedures invokable at intermediate execution states, a dual text-code representation that connects skill retrieval with executable action, and a state-grounded dynamic retrieval mechanism that matches skills to both the task goal and the current webpage state. Experiments on WebArena across five domains show that SGDR consistently outperforms strong baselines, achieving average success rates of 37.5% with GPT-4.1 and 24.3% with Qwen3-4B, corresponding to relative gains of 10.6% and 10.0% over the strongest baseline, respectively. The code is available at https://github.com/plusnli/skill-dynamic-retrieval.