Aprendizado de Habilidades Online para Agentes Web via Recuperação Dinâmica Baseada em Estado

Resumo

Agentes de linguagem dependem cada vez mais de habilidades reutilizáveis para melhorar a automação web de múltiplas etapas em tarefas relacionadas. Uma linha crescente de trabalhos estuda o aprendizado online de habilidades, onde agentes continuamente induzem habilidades a partir de trajetórias de tarefas anteriores e as reutilizam em tarefas futuras em tempo real. No entanto, os métodos existentes reutilizam principalmente habilidades no nível da tarefa: um conjunto fixo de habilidades é recuperado com base na instrução inicial da tarefa e depois mantido fixo durante toda a execução. Essa estratégia estática está desalinhada com a execução web, onde a próxima ação apropriada depende não apenas do objetivo da tarefa, mas também do estado atual da página web, que frequentemente transita para situações que as habilidades iniciais não cobrem. Para abordar essa lacuna, propomos o State-Grounded Dynamic Retrieval (SGDR), um método de aprendizado online de habilidades que permite a reutilização gradual de habilidades para agentes web. O SGDR consiste em três componentes: um processo de extração por janela deslizante que transforma trajetórias concluídas em subprocedimentos reutilizáveis invocáveis em estados intermediários de execução, uma representação dupla texto-código que conecta a recuperação de habilidades com ação executável, e um mecanismo de recuperação dinâmica baseada no estado que combina habilidades tanto ao objetivo da tarefa quanto ao estado atual da página web. Experimentos no WebArena em cinco domínios mostram que o SGDR supera consistentemente linhas de base fortes, alcançando taxas médias de sucesso de 37,5% com GPT-4.1 e 24,3% com Qwen3-4B, correspondendo a ganhos relativos de 10,6% e 10,0% sobre a linha de base mais forte, respectivamente. O código está disponível em https://github.com/plusnli/skill-dynamic-retrieval.

English

Language agents increasingly rely on reusable skills to improve multi-step web automation across related tasks. A growing line of work studies online skill learning, where agents continually induce skills from previous task trajectories and reuse them in future tasks on the fly. However, existing methods mainly reuse skills at the task-level: a fixed set of skills is retrieved based on the initial task instruction and then held fixed throughout execution. This static strategy is misaligned with web execution, where the appropriate next action depends not only on the task goal but also on the current webpage state, which often transitions into situations that the initial skills fail to cover. To address this gap, we propose State-Grounded Dynamic Retrieval (SGDR), an online skill learning method that enables stepwise skill reuse for web agents. SGDR consists of three components: a sliding-window extraction process that turns completed trajectories into reusable sub-procedures invokable at intermediate execution states, a dual text-code representation that connects skill retrieval with executable action, and a state-grounded dynamic retrieval mechanism that matches skills to both the task goal and the current webpage state. Experiments on WebArena across five domains show that SGDR consistently outperforms strong baselines, achieving average success rates of 37.5% with GPT-4.1 and 24.3% with Qwen3-4B, corresponding to relative gains of 10.6% and 10.0% over the strongest baseline, respectively. The code is available at https://github.com/plusnli/skill-dynamic-retrieval.