지식만으로는 부족하다: 지속적 적응을 위한 강화학습 기술 주입
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
January 16, 2026
저자: Pingzhi Tang, Yiding Wang, Muhan Zhang
cs.AI
초록
대규모 언어 모델(LLM)은 고정된 매개변수 기억으로 인해 새로운 정보를 직접 내재화하지 못하는 "지식 차단" 문제에 직면합니다. 새로운 모델 지식을 업데이트하는 데 일반적으로 사용되는 지도 미세 조정(SFT)은 사실적 내용을 업데이트하지만, 새로 통합된 정보를 질문 응답이나 의사 결정에 활용하는 모델의 능력을 안정적으로 향상시키지는 못하는 경우가 많습니다. 강화 학습(RL)은 추론 능력 습득에 필수적이지만, 높은 계산 비용으로 인해 효율적인 온라인 적응에는 실용적이지 않습니다. 우리는 실험적으로 SFT와 RL에 의해 유도된 매개변수 업데이트가 거로 직교한다는 것을 관찰했습니다. 이러한 관찰을 바탕으로, 효율적이고 효과적인 지식 적응을 위한 모듈식 기술 전달을 지원하는 프레임워크인 매개변수 기술 전달(PaST)을 제안합니다. 소스 도메인에서 도메인 독립적 기술 벡터를 추출함으로써, 새로운 데이터에 대해 경량 SFT를 수행한 대상 모델에 지식 조작 기술을 선형적으로 주입할 수 있습니다. 지식 통합 질문 응답(SQuAD, LooGLE) 및 에이전트 도구 사용 벡마크(ToolBench)에 대한 실험을 통해 우리 방법의 효과를 입증했습니다. SQuAD에서 PaST는 최신 자체 편집 SFT 기준선을 최대 9.9점까지 능가했습니다. PaST는 LooGLE의 장문 컨텍스트 질문 응답에서 8.0점의 절대 정확도 향상으로 확장되었으며, ToolBench의 제로샷 성공률을 평균 +10.3점 향상시켜 도구 범주 전반에 걸쳐 일관된 성과를 보여 기술 벡터의 강력한 확장성과 크로스 도메인 전이 가능성을 입증했습니다.
English
Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.