Van Context naar Vaardigheden: Kunnen Taalmodellen Vaardig Leren uit Context?

Samenvatting

Veel real-worldtaken vereisen dat taalmodelen kunnen redeneren over complexe contexten die hun parametrische kennis overstijgen. Dit vraagt om contextleren, waarbij taalmodelen relevante kennis rechtstreeks uit de gegeven context leren. Een intuïtieve oplossing is vaardigheidsuitbreiding tijdens inferentie: het extraheren van regels en procedures uit de context naar natuurlijke-taalskills. Het construeren van dergelijke skills voor contextleerscenario's kampt echter met twee uitdagingen: de onhoudbare kosten van handmatige skillannotatie voor lange, technisch dense contexten, en het ontbreken van externe feedback voor geautomatiseerde skillconstructie. In dit artikel stellen we Ctx2Skill voor, een zelf-evoluerend framework dat autonoom context-specifieke skills ontdekt, verfijnt en selecteert zonder menselijk toezicht of externe feedback. Centraal staat een multi-agent self-play-lus met een Challenger die verkennende taken en rubrics genereert, een Reasoner die deze probeert op te lossen geleid door een evoluerende skillset, en een neutrale Judge die binaire feedback verschaft. Cruciaal is dat zowel de Challenger als de Reasoner evolueren door opgestapelde skills: toegewijde Proposer- en Generator-agents analyseren faalgevallen en synthetiseren deze tot gerichte skillupdates voor beide kanten, wat geautomatiseerde skillontdekking en -verfijning mogelijk maakt. Om adversariële collaps te voorkomen – veroorzaakt door steeds extremere taakgeneratie en overgespecialiseerde skillaccumulatie – introduceren we een Cross-time Replay-mechanisme dat de skillset identificeert die de beste balans bereikt over representatieve gevallen voor de Reasoner-kant, zodat robuuste en generaliseerbare skill-evolutie gewaarborgd is. De resulterende skills kunnen in elk taalmodel worden ingeplugd om betere contextleercapaciteit te verkrijgen. Geëvalueerd op vier contextleertaken uit CL-bench verbetert Ctx2Skill consistent de oplossingspercentages across backbone-modellen.

English

Many real-world tasks require language models (LMs) to reason over complex contexts that exceed their parametric knowledge. This calls for context learning, where LMs directly learn relevant knowledge from the given context. An intuitive solution is inference-time skill augmentation: extracting the rules and procedures from context into natural-language skills. However, constructing such skills for context learning scenarios faces two challenges: the prohibitive cost of manual skill annotation for long, technically dense contexts, and the lack of external feedback for automated skill construction. In this paper, we propose Ctx2Skill, a self-evolving framework that autonomously discovers, refines, and selects context-specific skills without human supervision or external feedback. At its core, a multi-agent self-play loop has a Challenger that generates probing tasks and rubrics, a Reasoner that attempts to solve them guided by an evolving skill set, and a neutral Judge that provides binary feedback. Crucially, both the Challenger and the Reasoner evolve through accumulated skills: dedicated Proposer and Generator agents analyze failure cases and synthesize them into targeted skill updates for both sides, enabling automated skill discovery and refinement. To prevent adversarial collapse caused by increasingly extreme task generation and over-specialized skill accumulation, we further introduce a Cross-time Replay mechanism that identifies the skill set achieving the best balance across representative cases for the Reasoner side, ensuring robust and generalizable skill evolution. The resulting skills can be plugged into any language model to obtain better context learning capability. Evaluated on four context learning tasks from CL-bench, Ctx2Skill consistently improves solving rates across backbone models.

Van Context naar Vaardigheden: Kunnen Taalmodellen Vaardig Leren uit Context?

From Context to Skills: Can Language Models Learn from Context Skillfully?

Samenvatting

Support