Del Contexto a las Habilidades: ¿Pueden los Modelos de Lenguaje Aprender Habilidades del Contexto con Destreza?
From Context to Skills: Can Language Models Learn from Context Skillfully?
May 3, 2026
Autores: Shuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo, Zheng Wang, Gang Chen, Fanchao Qi, Minjia Zhang, Maosong Sun
cs.AI
Resumen
Muchas tareas del mundo real requieren que los modelos de lenguaje (LM) razonen sobre contextos complejos que exceden su conocimiento paramétrico. Esto demanda el aprendizaje contextual, donde los LM aprenden directamente el conocimiento relevante a partir del contexto dado. Una solución intuitiva es la aumentación de habilidades en tiempo de inferencia: extraer las reglas y procedimientos del contexto y convertirlos en habilidades en lenguaje natural. Sin embargo, la construcción de dichas habilidades para escenarios de aprendizaje contextual enfrenta dos desafíos: el costo prohibitivo de la anotación manual de habilidades para contextos largos y técnicamente densos, y la falta de retroalimentación externa para la construcción automatizada de habilidades. En este artículo, proponemos Ctx2Skill, un marco de auto-evolución que descubre, refina y selecciona habilidades específicas del contexto de forma autónoma, sin supervisión humana ni retroalimentación externa. En su núcleo, un bucle de auto-juego multiagente cuenta con un Desafiante que genera tareas de sondeo y rúbricas, un Razonador que intenta resolverlas guiado por un conjunto de habilidades en evolución, y un Juez neutral que proporciona retroalimentación binaria. Crucialmente, tanto el Desafiante como el Razonador evolucionan mediante la acumulación de habilidades: agentes dedicados (Proponente y Generador) analizan los casos de fracaso y los sintetizan en actualizaciones de habilidades específicas para ambos bandos, permitiendo el descubrimiento y refinamiento automatizado de habilidades. Para evitar el colapso adversarial causado por una generación de tareas cada vez más extrema y una acumulación de habilidades sobre-especializadas, introducimos además un mecanismo de Reproducción Cruzada en el Tiempo que identifica el conjunto de habilidades que logra el mejor equilibrio en casos representativos para el lado del Razonador, asegurando una evolución de habilidades robusta y generalizable. Las habilidades resultantes pueden integrarse en cualquier modelo de lenguaje para obtener una mejor capacidad de aprendizaje contextual. Evaluado en cuatro tareas de aprendizaje contextual de CL-bench, Ctx2Skill mejora consistentemente las tasas de resolución en diversos modelos base.
English
Many real-world tasks require language models (LMs) to reason over complex contexts that exceed their parametric knowledge. This calls for context learning, where LMs directly learn relevant knowledge from the given context. An intuitive solution is inference-time skill augmentation: extracting the rules and procedures from context into natural-language skills. However, constructing such skills for context learning scenarios faces two challenges: the prohibitive cost of manual skill annotation for long, technically dense contexts, and the lack of external feedback for automated skill construction. In this paper, we propose Ctx2Skill, a self-evolving framework that autonomously discovers, refines, and selects context-specific skills without human supervision or external feedback. At its core, a multi-agent self-play loop has a Challenger that generates probing tasks and rubrics, a Reasoner that attempts to solve them guided by an evolving skill set, and a neutral Judge that provides binary feedback. Crucially, both the Challenger and the Reasoner evolve through accumulated skills: dedicated Proposer and Generator agents analyze failure cases and synthesize them into targeted skill updates for both sides, enabling automated skill discovery and refinement. To prevent adversarial collapse caused by increasingly extreme task generation and over-specialized skill accumulation, we further introduce a Cross-time Replay mechanism that identifies the skill set achieving the best balance across representative cases for the Reasoner side, ensuring robust and generalizable skill evolution. The resulting skills can be plugged into any language model to obtain better context learning capability. Evaluated on four context learning tasks from CL-bench, Ctx2Skill consistently improves solving rates across backbone models.