Redes de Habilidades Programáticas em Evolução

Resumo

Estudamos a aquisição contínua de habilidades em ambientes corporificados abertos, onde um agente deve construir, refinar e reutilizar uma biblioteca em expansão de habilidades executáveis. Introduzimos a Rede de Habilidades Programáticas (PSN), uma estrutura na qual as habilidades são programas simbólicos executáveis que formam uma rede composicional que evolui através da experiência. A PSN define três mecanismos centrais instanciados via modelos de linguagem de grande escala: (1) REFLECT para localização estruturada de falhas em composições de habilidades, (2) otimização progressiva com bloqueio de atualização baseado em maturidade que estabiliza habilidades confiáveis enquanto mantém plasticidade para as incertas, e (3) refatoração estrutural canônica com validação de reversão que mantém a compactação da rede. Demonstramos ainda que a dinâmica de aprendizagem da PSN exibe paralelos estruturais com o treinamento de redes neurais. Experimentos no MineDojo e Crafter demonstram reutilização robusta de habilidades, adaptação rápida e forte generalização em distribuições de tarefas abertas.\footnote{Planeamos disponibilizar o código em acesso aberto.}

English

We study continual skill acquisition in open-ended embodied environments where an agent must construct, refine, and reuse an expanding library of executable skills. We introduce the Programmatic Skill Network (PSN), a framework in which skills are executable symbolic programs forming a compositional network that evolves through experience. PSN defines three core mechanisms instantiated via large language models: (1)REFLECT for structured fault localization over skill compositions, (2) progressive optimization with maturity-aware update gating that stabilizes reliable skills while maintaining plasticity for uncertain ones, and (3) canonical structural refactoring under rollback validation that maintains network compactness. We further show that PSN's learning dynamics exhibit structural parallels to neural network training. Experiments on MineDojo and Crafter demonstrate robust skill reuse, rapid adaptation, and strong generalization across open-ended task distributions.\footnote{We plan to open-source the code.