ChatPaper.aiChatPaper

Evoluerende Programmatische Vaardigheidsnetwerken

Evolving Programmatic Skill Networks

January 7, 2026
Auteurs: Haochen Shi, Xingdi Yuan, Bang Liu
cs.AI

Samenvatting

Wij bestuderen continue vaardigheidsverwerving in open-ended, belichaamde omgevingen waarin een agent een uitbreidende bibliotheek van uitvoerbare vaardigheden moet opbouwen, verfijnen en hergebruiken. Wij introduceren het Programmeerbaar Vaardigheidsnetwerk (PVN), een raamwerk waarin vaardigheden uitvoerbare symbolische programma's zijn die een compositioneel netwerk vormen dat evolueert door ervaring. PVN definieert drie kernmechanismen geïmplementeerd via grote taalmodel(len): (1) REFLECT voor gestructureerde foutlokalisatie in vaardigheidscomposities, (2) progressieve optimalisatie met rijpingsbewuste update-gating dat betrouwbare vaardigheden stabiliseert terwijl plasticiteit voor onzekere vaardigheden behouden blijft, en (3) canonieke structurele refactoring met rollback-validatie die de netwerkcompactheid handhaaft. Verder tonen wij aan dat de leer dynamiek van PVN structurele parallellen vertoont met de training van neurale netwerken. Experimenten op MineDojo en Crafter demonstreren robuust vaardigheidshergebruik, snelle aanpassing en sterke generalisatie over open-ended taakdistributies.\footnote{Wij zijn van plan de code open-source te maken.}
English
We study continual skill acquisition in open-ended embodied environments where an agent must construct, refine, and reuse an expanding library of executable skills. We introduce the Programmatic Skill Network (PSN), a framework in which skills are executable symbolic programs forming a compositional network that evolves through experience. PSN defines three core mechanisms instantiated via large language models: (1)REFLECT for structured fault localization over skill compositions, (2) progressive optimization with maturity-aware update gating that stabilizes reliable skills while maintaining plasticity for uncertain ones, and (3) canonical structural refactoring under rollback validation that maintains network compactness. We further show that PSN's learning dynamics exhibit structural parallels to neural network training. Experiments on MineDojo and Crafter demonstrate robust skill reuse, rapid adaptation, and strong generalization across open-ended task distributions.\footnote{We plan to open-source the code.
PDF521January 9, 2026