Знания недостаточны: внедрение навыков обучения с подкреплением для непрерывной адаптации
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
January 16, 2026
Авторы: Pingzhi Tang, Yiding Wang, Muhan Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) сталкиваются с проблемой «отсечки знаний», когда их замороженная параметрическая память препятствует прямому усвоению новой информации. Хотя обучение с учителем (SFT) обычно используется для обновления знаний модели, оно часто обновляет фактологическое содержание, не обеспечивая надежного улучшения способности модели использовать вновь усвоенную информацию для ответов на вопросы или принятия решений. Обучение с подкреплением (RL) необходимо для приобретения навыков рассуждения, однако его высокая вычислительная стоимость делает его непрактичным для эффективной онлайн-адаптации. Эмпирически мы наблюдаем, что обновления параметров, вызванные SFT и RL, являются почти ортогональными. На основе этого наблюдения мы предлагаем Parametric Skill Transfer (PaST) — фреймворк, поддерживающий модульный перенос навыков для эффективной и действенной адаптации знаний. Извлекая не зависящий от домена «вектор навыков» из исходного домена, мы можем линейно внедрить навыки манипулирования знаниями в целевую модель после того, как она прошла облегченное SFT на новых данных. Эксперименты на тестах по включению знаний в вопросно-ответные системы (SQuAD, LooGLE) и на бенчмарках инструментального использования агентами (ToolBench) демонстрируют эффективность нашего метода. На SQuAD PaST превосходит современный базовый метод саморедактирующегося SFT на величину до 9.9 баллов. PaST также масштабируется на задачи вопросно-ответных систем с длинным контекстом на LooGLE с абсолютным приростом точности на 8.0 баллов и улучшает показатели успешности на ToolBench в режиме zero-shot в среднем на +10.3 балла с устойчивым приростом across категориям инструментов, что указывает на сильную масштабируемость и кросс-доменную переносимость вектора навыков.
English
Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.