Wissen allein genügt nicht: Einbringen von Fähigkeiten des bestärkenden Lernens für kontinuierliche Anpassung
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
January 16, 2026
papers.authors: Pingzhi Tang, Yiding Wang, Muhan Zhang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) sehen sich mit der Herausforderung des "Wissensstichtags" konfrontiert, bei dem ihr eingefrorenes parametrisches Gedächtnis die direkte Verinnerlichung neuer Informationen verhindert. Obwohl überwachte Feinabstimmung (SFT) häufig zur Aktualisierung des Modellwissens eingesetzt wird, aktualisiert sie oft faktische Inhalte, ohne die Fähigkeit des Modells, die neu integrierten Informationen für Frage-Antwort-Aufgaben oder Entscheidungsfindung zu nutzen, zuverlässig zu verbessern. Bestärkendes Lernen (RL) ist entscheidend für den Erwerb von Denkfähigkeiten; jedoch machen die hohen Rechenkosten es für eine effiziente Online-Anpassung unpraktikabel. Wir beobachten empirisch, dass die durch SFT und RL induzierten Parameteraktualisierungen nahezu orthogonal zueinander sind. Aufbauend auf dieser Beobachtung schlagen wir Parametric Skill Transfer (PaST) vor, einen Rahmen, der modularen Kompetenztransfer für eine effiziente und effektive Wissensanpassung unterstützt. Indem wir einen domänenunabhängigen Skill-Vektor aus einer Quell-Domäne extrahieren, können wir Wissensmanipulationsfähigkeiten linear in ein Zielmodell injizieren, nachdem dieses eine leichtgewichtige SFT auf neuen Daten durchlaufen hat. Experimente auf Wissensintegrations-Frage-Antwort-Benchmarks (SQuAD, LooGLE) und agenten-basierten Werkzeugnutzungs-Benchmarks (ToolBench) demonstrieren die Wirksamkeit unserer Methode. Auf SQuAD übertrifft PaST den state-of-the-art SFT-Baselineansatz zur Selbstbearbeitung um bis zu 9,9 Punkte. PaST skaliert weiterhin auf Frage-Antwort-Aufgaben mit langem Kontext auf LooGLE mit einem absoluten Genauigkeitsgewinn von 8,0 Punkten und verbessert die Zero-Shot-Erfolgsquoten auf ToolBench im Durchschnitt um +10,3 Punkte mit konsistenten Steigerungen über Werkzeugkategorien hinweg, was auf eine starke Skalierbarkeit und domänenübergreifende Übertragbarkeit des Skill-Vektors hindeutet.
English
Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.