Kennis is Niet Genoeg: Het Injecteren van RL-vaardigheden voor Continue Aanpassing

Samenvatting

Grote Taalmodellen (GTM's) kampen met het "kennisafsluitingsprobleem", waarbij hun bevroren parametrische geheugen verhindert dat nieuwe informatie direct wordt geïnternaliseerd. Hoewel Supervised Fine-Tuning (SFT) vaak wordt gebruikt om modelkennis bij te werken, actualiseert het meestal feitelijke inhoud zonder het vermogen van het model om de nieuw geïncorporeerde informatie te gebruiken voor vraagbeantwoording of besluitvorming betrouwbaar te verbeteren. Reinforcement Learning (RL) is essentieel voor het verwerven van redeneervaardigheden; de hoge rekenkosten maken het echter onpraktisch voor efficiënte online-aanpassing. Wij observeren empirisch dat de parameterupdates veroorzaakt door SFT en RL bijna orthogonaal zijn. Gebaseerd op deze observatie stellen wij Parametric Skill Transfer (PaST) voor, een raamwerk dat modulaire vaardigheidsoverdracht ondersteunt voor efficiënte en effectieve kennisaanpassing. Door een domein-agnostische Skill Vector uit een brondomein te extraheren, kunnen wij kennismanipulatievaardigheden lineair injecteren in een doelmodel nadat het een lichtgewicht SFT op nieuwe gegevens heeft ondergaan. Experimenten op het gebied van kennisincorporatie-vraagbeantwoording (SQuAD, LooGLE) en agent-gebaseerde tool-gebruik benchmarks (ToolBench) demonstreren de effectiviteit van onze methode. Op SQuAD presteert PaST tot 9,9 punten beter dan de state-of-the-art zelf-editerende SFT-basislijn. PaST schaalt verder naar vraagbeantwoording met lange context op LooGLE met een absolute nauwkeurigheidswinst van 8,0 punten, en verbetert de zero-shot ToolBench-succespercentages gemiddeld met +10,3 punten met consistente winsten across toolcategorieën, wat duidt op sterke schaalbaarheid en cross-domein overdraagbaarheid van de Skill Vector.

English

Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.

Kennis is Niet Genoeg: Het Injecteren van RL-vaardigheden voor Continue Aanpassing

Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Samenvatting

Support