Du contexte aux compétences : les modèles linguistiques peuvent-ils apprendre habilement du contexte ?
From Context to Skills: Can Language Models Learn from Context Skillfully?
May 3, 2026
Auteurs: Shuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo, Zheng Wang, Gang Chen, Fanchao Qi, Minjia Zhang, Maosong Sun
cs.AI
Résumé
De nombreuses tâches réelles nécessitent que les modèles de langage (LM) raisonnent sur des contextes complexes dépassant leur connaissance paramétrique. Cela exige un apprentissage contextuel, où les LM apprennent directement les connaissances pertinentes à partir du contexte donné. Une solution intuitive est l'augmentation des compétences en inférence : extraire les règles et procédures du contexte sous forme de compétences en langage naturel. Cependant, la construction de telles compétences pour les scénarios d'apprentissage contextuel se heurte à deux défis : le coût prohibitif de l'annotation manuelle des compétences pour des contextes longs et techniquement denses, et l'absence de retour d'information externe pour une construction automatisée des compétences. Dans cet article, nous proposons Ctx2Skill, un cadre auto-évolutif qui découvre, affine et sélectionne de manière autonome des compétences spécifiques au contexte sans supervision humaine ni retour externe. Au cœur du système, une boucle de jeu multi-agents implique un Challenger qui génère des tâches de test et des grilles d'évaluation, un Raisonneur qui tente de les résoudre en s'appuyant sur un ensemble de compétences en évolution, et un Juge neutre qui fournit un retour binaire. Fait crucial, le Challenger et le Raisonneur évoluent tous deux grâce à l'accumulation de compétences : des agents dédiés (Proposant et Générateur) analysent les échecs et les synthétisent en mises à jour ciblées des compétences pour les deux parties, permettant une découverte et un affinage automatisés des compétences. Pour éviter un effondrement adversarial causé par une génération de tâches de plus en plus extrême et une accumulation de compétences sur-spécialisées, nous introduisons en outre un mécanisme de Rejeu Trans-temporel qui identifie l'ensemble de compétences atteignant le meilleur équilibre sur des cas représentatifs pour le Raisonneur, garantissant une évolution des compétences robuste et généralisable. Les compétences résultantes peuvent être intégrées à n'importe quel modèle de langage pour obtenir une meilleure capacité d'apprentissage contextuel. Évalué sur quatre tâches d'apprentissage contextuel de CL-bench, Ctx2Skill améliore constamment les taux de résolution sur différents modèles de base.
English
Many real-world tasks require language models (LMs) to reason over complex contexts that exceed their parametric knowledge. This calls for context learning, where LMs directly learn relevant knowledge from the given context. An intuitive solution is inference-time skill augmentation: extracting the rules and procedures from context into natural-language skills. However, constructing such skills for context learning scenarios faces two challenges: the prohibitive cost of manual skill annotation for long, technically dense contexts, and the lack of external feedback for automated skill construction. In this paper, we propose Ctx2Skill, a self-evolving framework that autonomously discovers, refines, and selects context-specific skills without human supervision or external feedback. At its core, a multi-agent self-play loop has a Challenger that generates probing tasks and rubrics, a Reasoner that attempts to solve them guided by an evolving skill set, and a neutral Judge that provides binary feedback. Crucially, both the Challenger and the Reasoner evolve through accumulated skills: dedicated Proposer and Generator agents analyze failure cases and synthesize them into targeted skill updates for both sides, enabling automated skill discovery and refinement. To prevent adversarial collapse caused by increasingly extreme task generation and over-specialized skill accumulation, we further introduce a Cross-time Replay mechanism that identifies the skill set achieving the best balance across representative cases for the Reasoner side, ensuring robust and generalizable skill evolution. The resulting skills can be plugged into any language model to obtain better context learning capability. Evaluated on four context learning tasks from CL-bench, Ctx2Skill consistently improves solving rates across backbone models.