Aprendizaje en línea de habilidades para agentes web mediante recuperación dinámica basada en el estado

Resumen

Los agentes lingüísticos recurren cada vez más a habilidades reutilizables para mejorar la automatización web en múltiples pasos en tareas relacionadas. Una línea de trabajo creciente estudia el aprendizaje en línea de habilidades, donde los agentes inducen continuamente habilidades a partir de trayectorias de tareas previas y las reutilizan en nuevas tareas sobre la marcha. Sin embargo, los métodos existentes reutilizan principalmente las habilidades a nivel de tarea: un conjunto fijo de habilidades se recupera según la instrucción inicial de la tarea y se mantiene fijo durante toda la ejecución. Esta estrategia estática no está alineada con la ejecución web, donde la acción adecuada siguiente depende no solo del objetivo de la tarea, sino también del estado actual de la página web, que a menudo transita hacia situaciones que las habilidades iniciales no logran cubrir. Para abordar esta brecha, proponemos Recuperación Dinámica Basada en el Estado (SGDR, por sus siglas en inglés), un método de aprendizaje en línea de habilidades que permite la reutilización gradual de habilidades para agentes web. SGDR consta de tres componentes: un proceso de extracción por ventana deslizante que convierte trayectorias completadas en subprocedimientos reutilizables invocables en estados intermedios de ejecución, una representación dual texto-código que conecta la recuperación de habilidades con la acción ejecutable, y un mecanismo de recuperación dinámica basada en el estado que empareja habilidades tanto con el objetivo de la tarea como con el estado actual de la página web. Los experimentos en WebArena en cinco dominios muestran que SGDR supera consistentemente a las líneas base fuertes, logrando tasas de éxito promedio del 37.5% con GPT-4.1 y del 24.3% con Qwen3-4B, lo que corresponde a ganancias relativas del 10.6% y el 10.0% sobre la línea base más fuerte, respectivamente. El código está disponible en https://github.com/plusnli/skill-dynamic-retrieval.

English

Language agents increasingly rely on reusable skills to improve multi-step web automation across related tasks. A growing line of work studies online skill learning, where agents continually induce skills from previous task trajectories and reuse them in future tasks on the fly. However, existing methods mainly reuse skills at the task-level: a fixed set of skills is retrieved based on the initial task instruction and then held fixed throughout execution. This static strategy is misaligned with web execution, where the appropriate next action depends not only on the task goal but also on the current webpage state, which often transitions into situations that the initial skills fail to cover. To address this gap, we propose State-Grounded Dynamic Retrieval (SGDR), an online skill learning method that enables stepwise skill reuse for web agents. SGDR consists of three components: a sliding-window extraction process that turns completed trajectories into reusable sub-procedures invokable at intermediate execution states, a dual text-code representation that connects skill retrieval with executable action, and a state-grounded dynamic retrieval mechanism that matches skills to both the task goal and the current webpage state. Experiments on WebArena across five domains show that SGDR consistently outperforms strong baselines, achieving average success rates of 37.5% with GPT-4.1 and 24.3% with Qwen3-4B, corresponding to relative gains of 10.6% and 10.0% over the strongest baseline, respectively. The code is available at https://github.com/plusnli/skill-dynamic-retrieval.