Fertigkeit1: Vereinheitlichte Evolution von fähigkeitserweiterten Agenten durch bestärkendes Lernen

Zusammenfassung

Eine persistente Fähigkeitenbibliothek ermöglicht es Sprachmodell-Agenten, erfolgreiche Strategien über verschiedene Aufgaben hinweg wiederzuverwenden. Die Aufrechterhaltung einer solchen Bibliothek erfordert drei gekoppelte Fähigkeiten: Der Agent wählt eine relevante Fähigkeit aus, wendet sie während der Ausführung an und destilliert neue Fähigkeiten aus Erfahrungen. Bestehende Methoden optimieren diese Fähigkeiten isoliert oder mit separaten Belohnungsquellen, was zu teilweiser und widersprüchlicher Evolution führt. Wir schlagen Skill1 vor, ein Framework, das eine einzelne Policy trainiert, um Fähigkeitsauswahl, -nutzung und -destillation gemeinsam hin zu einem gemeinsamen Aufgaben-Ergebnis-Ziel zu entwickeln. Die Policy erzeugt eine Anfrage, um die Fähigkeitenbibliothek zu durchsuchen, bewertet Kandidaten neu, um eine auszuwählen, löst die Aufgabe unter deren Bedingung und destilliert eine neue Fähigkeit aus der Trajektorie. Die gesamte Lernableitung stammt von einem einzigen Aufgaben-Ergebnis-Signal. Sein niederfrequenter Trend schreibt die Auswahl zu und seine hochfrequente Variation schreibt die Destillation zu. Experimente in ALFWorld und WebShop zeigen, dass Skill1 bisherige auf Fähigkeiten basierende und verstärkende Lern-Baselines übertrifft. Die Trainingsdynamik bestätigt die gemeinsame Evolution der drei Fähigkeiten, und Ablationen zeigen, dass das Entfernen jeglicher Belohnungssignale die Evolution beeinträchtigt.

English

A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.

Fertigkeit1: Vereinheitlichte Evolution von fähigkeitserweiterten Agenten durch bestärkendes Lernen

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Zusammenfassung

Support