Le Savoir Ne Suffit Pas : Injecter des Compétences d’Apprentissage par Renforcement pour une Adaptation Continue

Résumé

Les modèles de langage de grande taille (LLM) sont confrontés au défi de "l'arrêt des connaissances", où leur mémoire paramétrique figée empêche l'intériorisation directe de nouvelles informations. Bien que le réglage fin supervisé (SFT) soit couramment utilisé pour actualiser les connaissances du modèle, il met souvent à jour le contenu factuel sans améliorer de manière fiable la capacité du modèle à utiliser les nouvelles informations intégrées pour répondre à des questions ou prendre des décisions. L'apprentissage par renforcement (RL) est essentiel pour acquérir des compétences de raisonnement ; cependant, son coût computationnel élevé le rend peu pratique pour une adaptation en ligne efficace. Nous observons empiriquement que les mises à jour des paramètres induites par le SFT et le RL sont quasi orthogonales. Sur la base de cette observation, nous proposons le Transfert Paramétrique de Compétences (PaST), un cadre qui prend en charge le transfert modulaire de compétences pour une adaptation des connaissances efficace et efficiente. En extrayant un Vecteur de Compétences indépendant du domaine à partir d'un domaine source, nous pouvons injecter linéairement des compétences de manipulation des connaissances dans un modèle cible après qu'il ait subi un SFT léger sur de nouvelles données. Les expériences sur l'incorporation de connaissances en QA (SQuAD, LooGLE) et les benchmarks d'utilisation d'outils agentiques (ToolBench) démontrent l'efficacité de notre méthode. Sur SQuAD, PaST surpasse la référence SFT d'auto-édition de pointe jusqu'à 9,9 points. PaST s'étend en outre au QA à contexte long sur LooGLE avec un gain de précision absolu de 8,0 points, et améliore les taux de réussite zero-shot sur ToolBench de +10,3 points en moyenne avec des gains constants across les catégories d'outils, indiquant une forte scalabilité et transférabilité inter-domaines du Vecteur de Compétences.

English

Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.

Le Savoir Ne Suffit Pas : Injecter des Compétences d’Apprentissage par Renforcement pour une Adaptation Continue

Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Résumé

Support