知識だけでは不十分:継続的適応のための強化学習スキルの注入
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
January 16, 2026
著者: Pingzhi Tang, Yiding Wang, Muhan Zhang
cs.AI
要旨
大規模言語モデル(LLM)は、固定化されたパラメトリックメモリによって新情報の直接的な内部化が阻まれる「知識カットオフ」課題に直面している。教師ありファインチューニング(SFT)はモデル知識の更新に広く用いられるが、事実内容を更新する一方で、新たに組み込まれた情報を質問応答や意思決定に活用する能力を確実に向上させるとは限らない。強化学習(RL)は推論スキルの習得に不可欠であるものの、計算コストが高く効率的なオンライン適応には実用的ではない。我々は実証的に、SFTとRLによって生じるパラメータ更新がほぼ直交関係にあることを確認した。この観察に基づき、効率的かつ効果的な知識適応のためのモジュール化スキル転移を実現するフレームワークParametric Skill Transfer (PaST)を提案する。ソースドメインからドメイン非依存のスキルベクトルを抽出することで、ターゲットモデルが新規データに対して軽量なSFTを実施した後、知識操作スキルを線形注入することが可能となる。知識組み込みQA(SQuAD、LooGLE)とエージェント的ツール利用ベンチマーク(ToolBench)における実験により、本手法の有効性を実証した。SQuADでは、PaSTは最先端の自己編集型SFTベースラインを最大9.9ポイント上回った。PaSTはさらにLooGLEの長文QAにスケーラブルに適用され8.0ポイントの絶対精度向上を達成し、ToolBenchではゼロショット成功率を平均+10.3ポイント改善(全ツールカテゴリで一貫した向上を示し)、スキルベクトルの強力な拡張性とクロスドメイン転移性を明らかにした。
English
Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.