HABILIDAD0: Aprendizaje por Refuerzo Agéntico en Contexto para la Internalización de Habilidades

Resumen

Las habilidades de agente, paquetes estructurados de conocimiento procedimental y recursos ejecutables que los agentes cargan dinámicamente en tiempo de inferencia, se han convertido en un mecanismo confiable para aumentar a los agentes de LLM. Sin embargo, la aumentación de habilidades en tiempo de inferencia es fundamentalmente limitada: el ruido en la recuperación introduce guías irrelevantes, el contenido inyectado de habilidades impone una sobrecarga sustancial de tokens, y el modelo nunca adquiere verdaderamente el conocimiento que simplemente sigue. Nos preguntamos si, en cambio, las habilidades pueden internalizarse en los parámetros del modelo, permitiendo un comportamiento autónomo de cero disparos sin ninguna recuperación de habilidades en tiempo de ejecución. Presentamos SKILL0, un marco de aprendizaje por refuerzo en contexto diseñado para la internalización de habilidades. SKILL0 introduce un currículum de entrenamiento que comienza con contexto completo de habilidades y lo retira progresivamente. Las habilidades se agrupan offline por categoría y se representan con el historial de interacción en un contexto visual compacto, enseñando al modelo la invocación de herramientas y la finalización de tareas multi-turno. Un Currículum Dinámico evalúa luego la utilidad en política de cada archivo de habilidad, reteniendo solo aquellos de los que la política actual aún se beneficia dentro de un presupuesto de desvanecimiento lineal, hasta que el agente opera en un entorno completamente de cero disparos. Experimentos agentivos extensos demuestran que SKILL0 logra mejoras sustanciales sobre la línea base estándar de RL (+9.7\% para ALFWorld y +6.6\% para Search-QA), manteniendo un contexto altamente eficiente de menos de 0.5k tokens por paso. Nuestro código está disponible en https://github.com/ZJU-REAL/SkillZero.

English

Agent skills, structured packages of procedural knowledge and executable resources that agents dynamically load at inference time, have become a reliable mechanism for augmenting LLM agents. Yet inference-time skill augmentation is fundamentally limited: retrieval noise introduces irrelevant guidance, injected skill content imposes substantial token overhead, and the model never truly acquires the knowledge it merely follows. We ask whether skills can instead be internalized into model parameters, enabling zero-shot autonomous behavior without any runtime skill retrieval. We introduce SKILL0, an in-context reinforcement learning framework designed for skill internalization. SKILL0 introduces a training-time curriculum that begins with full skill context and progressively withdraws it. Skills are grouped offline by category and rendered with interaction history into a compact visual context, teaching he model tool invocation and multi-turn task completion. A Dynamic Curriculum then evaluates each skill file's on-policy helpfulness, retaining only those from which the current policy still benefits within a linearly decaying budget, until the agent operates in a fully zero-shot setting. Extensive agentic experiments demonstrate that SKILL0 achieves substantial improvements over the standard RL baseline (+9.7\% for ALFWorld and +6.6\% for Search-QA), while maintaining a highly efficient context of fewer than 0.5k tokens per step. Our code is available at https://github.com/ZJU-REAL/SkillZero.

HABILIDAD0: Aprendizaje por Refuerzo Agéntico en Contexto para la Internalización de Habilidades

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Resumen

Support