ChatPaper.aiChatPaper

El Conocimiento No Es Suficiente: Inyección de Habilidades de Aprendizaje por Refuerzo para la Adaptación Continua

Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

January 16, 2026
Autores: Pingzhi Tang, Yiding Wang, Muhan Zhang
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLMs) enfrentan el desafío del "límite de conocimiento" (knowledge cutoff), donde su memoria paramétrica congelada impide la internalización directa de nueva información. Si bien el Fine-Tuning Supervisado (SFT) se utiliza comúnmente para actualizar el conocimiento del modelo, a menudo actualiza contenido factual sin mejorar de manera confiable la capacidad del modelo para utilizar la información recién incorporada en tareas de respuesta a preguntas o toma de decisiones. El Aprendizaje por Refuerzo (RL) es esencial para adquirir habilidades de razonamiento; sin embargo, su alto costo computacional lo hace impracticable para una adaptación en línea eficiente. Observamos empíricamente que las actualizaciones de parámetros inducidas por SFT y RL son casi ortogonales. Basándonos en esta observación, proponemos Parametric Skill Transfer (PaST), un marco que permite la transferencia modular de habilidades para una adaptación del conocimiento eficiente y efectiva. Mediante la extracción de un Vector de Habilidades (Skill Vector) independiente del dominio desde un dominio fuente, podemos inyectar linealmente habilidades de manipulación de conocimiento en un modelo objetivo después de que este haya sido sometido a un SFT ligero con nuevos datos. Los experimentos en benchmarks de incorporación de conocimiento en QA (SQuAD, LooGLE) y de uso de herramientas agentivas (ToolBench) demuestran la efectividad de nuestro método. En SQuAD, PaST supera al baseline state-of-the-art de auto-edición mediante SFT por hasta 9.9 puntos. PaST además escala a QA de contexto largo en LooGLE con una ganancia de precisión absoluta de 8.0 puntos, y mejora las tasas de éxito zero-shot en ToolBench en +10.3 puntos en promedio, con ganancias consistentes across categorías de herramientas, lo que indica una fuerte escalabilidad y transferibilidad cross-domain del Vector de Habilidades.
English
Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.
PDF42January 27, 2026