Vaardigheid 1: Geünificeerde Evolutie van Vaardigheids-uitgebreide Agenten via Versterkingsleren

Samenvatting

Een persistente vaardigheidsbibliotheek stelt taalmodelagenten in staat om succesvolle strategieën te hergebruiken bij verschillende taken. Het onderhouden van zo'n bibliotheek vereist drie gekoppelde capaciteiten. De agent selecteert een relevante vaardigheid, past deze toe tijdens de uitvoering en destilleert nieuwe vaardigheden uit ervaring. Bestaande methoden optimaliseren deze capaciteiten afzonderlijk of met gescheiden beloningsbronnen, wat leidt tot gedeeltelijke en tegenstrijdige evolutie. Wij stellen Skill1 voor, een raamwerk dat een enkel beleid traint om vaardigheidsselectie, -toepassing en -distillatie gezamenlijk te laten co-evolueren naar een gedeeld taakresultaatdoel. Het beleid genereert een zoekopdracht om de bibliotheek te doorzoeken, herrangschikt kandidaten om er een te selecteren, lost de taak op onder voorwaarde van deze keuze en distilleert een nieuwe vaardigheid uit de trajectgeschiedenis. Alle leerprocessen ontlenen hun input aan een enkel taakresultaatsignaal. De laagfrequente trend ervan crediteert selectie en de hoogfrequente variatie crediteert distillatie. Experimenten op ALFWorld en WebShop tonen aan dat Skill1 eerdere op vaardigheden gebaseerde en reinforcement learning-baselines overtreft. Trainingsdynamieken bevestigen de co-evolutie van de drie capaciteiten, en ablatiestudies tonen aan dat het verwijderen van elk creditsignaal de evolutie verslechtert.

English

A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.

Vaardigheid 1: Geünificeerde Evolutie van Vaardigheids-uitgebreide Agenten via Versterkingsleren

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Samenvatting

Support