Online-Fertiglernen für Web-Agenten mittels zustandsgebundener dynamischer Abfrage

Zusammenfassung

Sprachagenten verlassen sich zunehmend auf wiederverwendbare Fähigkeiten, um mehrstufige Webautomatisierung in verwandten Aufgaben zu verbessern. Ein wachsender Forschungszweig untersucht das Online-Fähigkeitslernen, bei dem Agenten kontinuierlich aus früheren Aufgabenverläufen Fähigkeiten ableiten und diese spontan in zukünftigen Aufgaben wiederverwenden. Allerdings setzen bestehende Methoden Fähigkeiten hauptsächlich auf Aufgabenebene wieder ein: Eine feste Menge an Fähigkeiten wird basierend auf der anfänglichen Aufgabenanweisung abgerufen und dann während der gesamten Ausführung beibehalten. Diese statische Strategie ist nicht auf die Webausführung abgestimmt, bei der die geeignete nächste Aktion nicht nur vom Aufgabenzielebenden auch vom aktuellen Webseitenzustand abhängt, der sich häufig in Situationen entwickelt, die von den anfänglichen Fähigkeiten nicht abgedeckt werden. Um diese Lücke zu schließen, schlagen wir das State-Grounded Dynamic Retrieval (SGDR) vor, eine Methode zum Online-Fähigkeitslernen, die eine schrittweise Wiederverwendung von Fähigkeiten für Webagenten ermöglicht. SGDR besteht aus drei Komponenten: einem Gleitfenster-Extraktionsprozess, der abgeschlossene Verläufe in wiederverwendbare Unterprozeduren umwandelt, die in Zwischenausführungszuständen aufgerufen werden können; einer dualen Text-Code-Repräsentation, die den Fähigkeitsabruf mit ausführbaren Aktionen verbindet; und einem zustandsverankerten dynamischen Retrieval-Mechanismus, der Fähigkeiten sowohl auf das Aufgabenzieleben als auch auf den aktuellen Webseitenzustand abstimmt. Experimente auf WebArena in fünf Bereichen zeigen, dass SGDR durchweg starke Baselines übertrifft und mit GPT-4.1 durchschnittliche Erfolgsquoten von 37,5 % und mit Qwen3-4B 24,3 % erreicht, was relativen Verbesserungen von 10,6 % bzw. 10,0 % gegenüber der stärksten Baseline entspricht. Der Code ist verfügbar unter https://github.com/plusnli/skill-dynamic-retrieval.

English

Language agents increasingly rely on reusable skills to improve multi-step web automation across related tasks. A growing line of work studies online skill learning, where agents continually induce skills from previous task trajectories and reuse them in future tasks on the fly. However, existing methods mainly reuse skills at the task-level: a fixed set of skills is retrieved based on the initial task instruction and then held fixed throughout execution. This static strategy is misaligned with web execution, where the appropriate next action depends not only on the task goal but also on the current webpage state, which often transitions into situations that the initial skills fail to cover. To address this gap, we propose State-Grounded Dynamic Retrieval (SGDR), an online skill learning method that enables stepwise skill reuse for web agents. SGDR consists of three components: a sliding-window extraction process that turns completed trajectories into reusable sub-procedures invokable at intermediate execution states, a dual text-code representation that connects skill retrieval with executable action, and a state-grounded dynamic retrieval mechanism that matches skills to both the task goal and the current webpage state. Experiments on WebArena across five domains show that SGDR consistently outperforms strong baselines, achieving average success rates of 37.5% with GPT-4.1 and 24.3% with Qwen3-4B, corresponding to relative gains of 10.6% and 10.0% over the strongest baseline, respectively. The code is available at https://github.com/plusnli/skill-dynamic-retrieval.