HABILIDADE0: Aprendizagem por Reforço Agêntica em Contexto para Internalização de Habilidades

Resumo

Habilidades de agente, pacotes estruturados de conhecimento procedural e recursos executáveis que os agentes carregam dinamicamente durante a inferência, tornaram-se um mecanismo confiável para aumentar agentes de LLM. No entanto, a ampliação de habilidades em tempo de inferência é fundamentalmente limitada: o ruído na recuperação introduz orientação irrelevante, o conteúdo injetado de habilidades impõe uma sobrecarga substancial de tokens, e o modelo nunca adquire verdadeiramente o conhecimento que meramente segue. Perguntamo-nos se as habilidades podem, em vez disso, ser internalizadas nos parâmetros do modelo, permitindo comportamento autónomo de zero-shot sem qualquer recuperação de habilidades em tempo de execução. Apresentamos o SKILL0, uma estrutura de aprendizagem por reforço in-context concebida para internalização de habilidades. O SKILL0 introduz um currículo de treino que começa com contexto completo de habilidades e progressivamente o retira. As habilidades são agrupadas offline por categoria e transformadas com histórico de interação num contexto visual compacto, ensinando ao modelo a invocação de ferramentas e a conclusão de tarefas multi-turno. Um Currículo Dinâmico avalia depois a utilidade on-policy de cada ficheiro de habilidade, retendo apenas aqueles de que a política atual ainda beneficia dentro de um orçamento com decaimento linear, até que o agente opera num ambiente totalmente zero-shot. Experiências agentivas extensivas demonstram que o SKILL0 alcança melhorias substanciais sobre a linha de base padrão de RL (+9,7% para ALFWorld e +6,6% para Search-QA), mantendo um contexto altamente eficiente de menos de 0,5k tokens por passo. O nosso código está disponível em https://github.com/ZJU-REAL/SkillZero.

English

Agent skills, structured packages of procedural knowledge and executable resources that agents dynamically load at inference time, have become a reliable mechanism for augmenting LLM agents. Yet inference-time skill augmentation is fundamentally limited: retrieval noise introduces irrelevant guidance, injected skill content imposes substantial token overhead, and the model never truly acquires the knowledge it merely follows. We ask whether skills can instead be internalized into model parameters, enabling zero-shot autonomous behavior without any runtime skill retrieval. We introduce SKILL0, an in-context reinforcement learning framework designed for skill internalization. SKILL0 introduces a training-time curriculum that begins with full skill context and progressively withdraws it. Skills are grouped offline by category and rendered with interaction history into a compact visual context, teaching he model tool invocation and multi-turn task completion. A Dynamic Curriculum then evaluates each skill file's on-policy helpfulness, retaining only those from which the current policy still benefits within a linearly decaying budget, until the agent operates in a fully zero-shot setting. Extensive agentic experiments demonstrate that SKILL0 achieves substantial improvements over the standard RL baseline (+9.7\% for ALFWorld and +6.6\% for Search-QA), while maintaining a highly efficient context of fewer than 0.5k tokens per step. Our code is available at https://github.com/ZJU-REAL/SkillZero.

HABILIDADE0: Aprendizagem por Reforço Agêntica em Contexto para Internalização de Habilidades

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Resumo

Support