От контекста к навыкам: могут ли языковые модели эффективно обучаться на основе контекста?

Аннотация

Многие практические задачи требуют от языковых моделей (ЯМ) способности рассуждать на основе сложных контекстов, выходящих за пределы их параметрических знаний. Это обуславливает необходимость обучения на контексте, при котором ЯМ напрямую извлекают релевантные знания из заданного контекста. Интуитивным решением является расширение навыков на этапе вывода: извлечение правил и процедур из контекста в виде навыков на естественном языке. Однако создание таких навыков для сценариев обучения на контексте сталкивается с двумя проблемами: непомерной стоимостью ручной аннотации навыков для длинных, технически насыщенных контекстов и отсутствием внешней обратной связи для автоматизированного построения навыков. В данной статье мы предлагаем Ctx2Skill — саморазвивающуюся систему, которая автономно обнаруживает, уточняет и отбирает контекстно-специфичные навыки без участия человека или внешней обратной связи. В её основе лежит петля самообучения с множеством агентов: Challenger (Испытатель) генерирует зондирующие задачи и критерии оценки, Reasoner (Субъект рассуждений) пытается решить их, руководствуясь развивающимся набором навыков, а нейтральный Judge (Судья) предоставляет бинарную обратную связь. Ключевым моментом является то, что как Challenger, так и Reasoner эволюционируют за счёт накопления навыков: специализированные агенты Proposer (Предлагающий) и Generator (Генератор) анализируют случаи неудач и синтезируют их в целенаправленные обновления навыков для обеих сторон, что позволяет автоматизировать обнаружение и уточнение навыков. Чтобы предотвратить коллапс из-за адверсариальности, вызванный генерацией всё более экстремальных задач и накоплением чрезмерно специализированных навыков, мы дополнительно вводим механизм Cross-time Replay (Воспроизведение между этапами), который идентифицирует набор навыков, достигающий наилучшего баланса на репрезентативных случаях для стороны Reasoner, обеспечивая robustную и обобщаемую эволюцию навыков. Полученные навыки можно интегрировать в любую языковую модель для повышения её способности к обучению на контексте. Оценка на четырёх задачах обучения на контексте из CL-bench показывает, что Ctx2Skill стабильно повышает процент успешных решений across различными базовыми моделями.

English

Many real-world tasks require language models (LMs) to reason over complex contexts that exceed their parametric knowledge. This calls for context learning, where LMs directly learn relevant knowledge from the given context. An intuitive solution is inference-time skill augmentation: extracting the rules and procedures from context into natural-language skills. However, constructing such skills for context learning scenarios faces two challenges: the prohibitive cost of manual skill annotation for long, technically dense contexts, and the lack of external feedback for automated skill construction. In this paper, we propose Ctx2Skill, a self-evolving framework that autonomously discovers, refines, and selects context-specific skills without human supervision or external feedback. At its core, a multi-agent self-play loop has a Challenger that generates probing tasks and rubrics, a Reasoner that attempts to solve them guided by an evolving skill set, and a neutral Judge that provides binary feedback. Crucially, both the Challenger and the Reasoner evolve through accumulated skills: dedicated Proposer and Generator agents analyze failure cases and synthesize them into targeted skill updates for both sides, enabling automated skill discovery and refinement. To prevent adversarial collapse caused by increasingly extreme task generation and over-specialized skill accumulation, we further introduce a Cross-time Replay mechanism that identifies the skill set achieving the best balance across representative cases for the Reasoner side, ensuring robust and generalizable skill evolution. The resulting skills can be plugged into any language model to obtain better context learning capability. Evaluated on four context learning tasks from CL-bench, Ctx2Skill consistently improves solving rates across backbone models.

От контекста к навыкам: могут ли языковые модели эффективно обучаться на основе контекста?

From Context to Skills: Can Language Models Learn from Context Skillfully?

Аннотация

Support