Apprentissage de compétences en ligne pour agents web via récupération dynamique ancrée dans l'état

Résumé

Les agents linguistiques s'appuient de plus en plus sur des compétences réutilisables pour améliorer l'automatisation web multi-étapes dans des tâches connexes. Un nombre croissant de travaux étudie l'apprentissage en ligne de compétences, où les agents induisent continuellement des compétences à partir de trajectoires de tâches antérieures et les réutilisent à la volée dans des tâches futures. Cependant, les méthodes existantes réutilisent principalement les compétences au niveau de la tâche : un ensemble fixe de compétences est récupéré en fonction de l'instruction initiale de la tâche, puis maintenu constant tout au long de l'exécution. Cette stratégie statique est inadaptée à l'exécution web, où l'action appropriée suivante ne dépend pas seulement de l'objectif de la tâche, mais aussi de l'état actuel de la page web, qui évolue souvent vers des situations que les compétences initiales ne parviennent pas à couvrir. Pour combler cette lacune, nous proposons la Récupération Dynamique Ancrée dans l'État (SGDR), une méthode d'apprentissage en ligne de compétences qui permet une réutilisation étape par étape des compétences pour les agents web. SGDR se compose de trois éléments : un processus d'extraction par fenêtre glissante qui transforme les trajectoires accomplies en sous-procédures réutilisables pouvant être invoquées à des états intermédiaires d'exécution, une représentation texte-code duale qui relie la récupération des compétences à l'action exécutable, et un mécanisme de récupération dynamique ancrée dans l'état qui fait correspondre les compétences à la fois à l'objectif de la tâche et à l'état actuel de la page web. Des expériences sur WebArena à travers cinq domaines montrent que SGDR surpasse systématiquement les bases de référence solides, atteignant des taux de succès moyens de 37,5 % avec GPT-4.1 et de 24,3 % avec Qwen3-4B, ce qui correspond à des gains relatifs de 10,6 % et 10,0 % par rapport à la meilleure base de référence, respectivement. Le code est disponible à l'adresse https://github.com/plusnli/skill-dynamic-retrieval.

English

Language agents increasingly rely on reusable skills to improve multi-step web automation across related tasks. A growing line of work studies online skill learning, where agents continually induce skills from previous task trajectories and reuse them in future tasks on the fly. However, existing methods mainly reuse skills at the task-level: a fixed set of skills is retrieved based on the initial task instruction and then held fixed throughout execution. This static strategy is misaligned with web execution, where the appropriate next action depends not only on the task goal but also on the current webpage state, which often transitions into situations that the initial skills fail to cover. To address this gap, we propose State-Grounded Dynamic Retrieval (SGDR), an online skill learning method that enables stepwise skill reuse for web agents. SGDR consists of three components: a sliding-window extraction process that turns completed trajectories into reusable sub-procedures invokable at intermediate execution states, a dual text-code representation that connects skill retrieval with executable action, and a state-grounded dynamic retrieval mechanism that matches skills to both the task goal and the current webpage state. Experiments on WebArena across five domains show that SGDR consistently outperforms strong baselines, achieving average success rates of 37.5% with GPT-4.1 and 24.3% with Qwen3-4B, corresponding to relative gains of 10.6% and 10.0% over the strongest baseline, respectively. The code is available at https://github.com/plusnli/skill-dynamic-retrieval.