Fertigkeit1: Vereinheitlichte Evolution von fähigkeitserweiterten Agenten durch bestärkendes LernenSkill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
Eine persistente Fähigkeitenbibliothek ermöglicht es Sprachmodell-Agenten, erfolgreiche Strategien über verschiedene Aufgaben hinweg wiederzuverwenden. Die Aufrechterhaltung einer solchen Bibliothek erfordert drei gekoppelte Fähigkeiten: Der Agent wählt eine relevante Fähigkeit aus, wendet sie während der Ausführung an und destilliert neue Fähigkeiten aus Erfahrungen. Bestehende Methoden optimieren diese Fähigkeiten isoliert oder mit separaten Belohnungsquellen, was zu teilweiser und widersprüchlicher Evolution führt. Wir schlagen Skill1 vor, ein Framework, das eine einzelne Policy trainiert, um Fähigkeitsauswahl, -nutzung und -destillation gemeinsam hin zu einem gemeinsamen Aufgaben-Ergebnis-Ziel zu entwickeln. Die Policy erzeugt eine Anfrage, um die Fähigkeitenbibliothek zu durchsuchen, bewertet Kandidaten neu, um eine auszuwählen, löst die Aufgabe unter deren Bedingung und destilliert eine neue Fähigkeit aus der Trajektorie. Die gesamte Lernableitung stammt von einem einzigen Aufgaben-Ergebnis-Signal. Sein niederfrequenter Trend schreibt die Auswahl zu und seine hochfrequente Variation schreibt die Destillation zu. Experimente in ALFWorld und WebShop zeigen, dass Skill1 bisherige auf Fähigkeiten basierende und verstärkende Lern-Baselines übertrifft. Die Trainingsdynamik bestätigt die gemeinsame Evolution der drei Fähigkeiten, und Ablationen zeigen, dass das Entfernen jeglicher Belohnungssignale die Evolution beeinträchtigt.