ChatPaper.aiChatPaper

Von Kontext zu Kompetenzen: Können Sprachmodelle geschickt aus Kontext lernen?

From Context to Skills: Can Language Models Learn from Context Skillfully?

May 3, 2026
Autoren: Shuzheng Si, Haozhe Zhao, Yu Lei, Qingyi Wang, Dingwei Chen, Zhitong Wang, Zhenhailong Wang, Kangyang Luo, Zheng Wang, Gang Chen, Fanchao Qi, Minjia Zhang, Maosong Sun
cs.AI

Zusammenfassung

Viele reale Aufgaben erfordern von Sprachmodellen (LMs), dass sie über komplexe Kontexte hinaus argumentieren, die ihr parametrisches Wissen übersteigen. Dies erfordert Kontextlernen, bei dem LMs relevantes Wissen direkt aus dem gegebenen Kontext erlernen. Eine intuitive Lösung ist die Erweiterung von Fähigkeiten zur Inferenzzeit: das Extrahieren von Regeln und Prozeduren aus dem Kontext in natürlichsprachige Fähigkeiten. Die Konstruktion solcher Fähigkeiten für Kontextlern-Szenarien steht jedoch vor zwei Herausforderungen: die prohibitiv hohen Kosten manueller Fähigkeiten-Annotation für lange, technisch dichte Kontexte und das Fehlen externer Rückmeldungen für die automatisierte Fähigkeiten-Konstruktion. In diesem Artikel schlagen wir Ctx2Skill vor, einen sich selbst entwickelnden Rahmen, der kontextspezifische Fähigkeiten autonom entdeckt, verfeinert und auswählt, ohne menschliche Aufsicht oder externe Rückmeldung. Im Kern besitzt eine Multi-Agenten-Selbstspiel-Schleife einen Challenger, der Testaufgaben und Bewertungsraster generiert, einen Reasoner, der versucht, diese unter Anleitung eines sich entwickelnden Fähigkeitensatzes zu lösen, und einen neutralen Judge, der binäre Rückmeldung gibt. Entscheidend ist, dass sich sowohl der Challenger als auch der Reasoner durch akkumulierte Fähigkeiten weiterentwickeln: spezielle Proposer- und Generator-Agenten analysieren Fehlschläge und synthetisieren sie in gezielte Fähigkeiten-Updates für beide Seiten, was automatisierte Fähigkeiten-Entdeckung und -Verfeinerung ermöglicht. Um einen adversariellen Kollaps zu verhindern, der durch zunehmend extreme Aufgabengenerierung und über-spezialisierte Fähigkeiten-Akkumulation verursacht wird, führen wir weiterhin einen Cross-time Replay-Mechanismus ein, der den Fähigkeitensatz identifiziert, der die beste Balance über repräsentative Fälle für die Reasoner-Seite erreicht, und so eine robuste und verallgemeinerbare Fähigkeiten-Entwicklung sicherstellt. Die resultierenden Fähigkeiten können in jedes Sprachmodell eingebunden werden, um eine bessere Kontextlernfähigkeit zu erhalten. Evaluierungen an vier Kontextlern-Aufgaben aus CL-bench zeigen, dass Ctx2Skill konsistent die Lösungsraten über verschiedene Backbone-Modelle hinweg verbessert.
English
Many real-world tasks require language models (LMs) to reason over complex contexts that exceed their parametric knowledge. This calls for context learning, where LMs directly learn relevant knowledge from the given context. An intuitive solution is inference-time skill augmentation: extracting the rules and procedures from context into natural-language skills. However, constructing such skills for context learning scenarios faces two challenges: the prohibitive cost of manual skill annotation for long, technically dense contexts, and the lack of external feedback for automated skill construction. In this paper, we propose Ctx2Skill, a self-evolving framework that autonomously discovers, refines, and selects context-specific skills without human supervision or external feedback. At its core, a multi-agent self-play loop has a Challenger that generates probing tasks and rubrics, a Reasoner that attempts to solve them guided by an evolving skill set, and a neutral Judge that provides binary feedback. Crucially, both the Challenger and the Reasoner evolve through accumulated skills: dedicated Proposer and Generator agents analyze failure cases and synthesize them into targeted skill updates for both sides, enabling automated skill discovery and refinement. To prevent adversarial collapse caused by increasingly extreme task generation and over-specialized skill accumulation, we further introduce a Cross-time Replay mechanism that identifies the skill set achieving the best balance across representative cases for the Reasoner side, ensuring robust and generalizable skill evolution. The resulting skills can be plugged into any language model to obtain better context learning capability. Evaluated on four context learning tasks from CL-bench, Ctx2Skill consistently improves solving rates across backbone models.
PDF1202May 6, 2026