Conhecimento Não é Suficiente: Injetando Habilidades de Aprendizagem por Reforço para Adaptação Contínua

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) enfrentam o desafio do "limite de conhecimento" (knowledge cutoff), onde sua memória paramétrica congelada impede a internalização direta de novas informações. Embora o Ajuste Fino Supervisionado (SFT) seja comumente usado para atualizar o conhecimento do modelo, ele frequentemente atualiza o conteúdo factual sem melhorar de forma confiável a capacidade do modelo de utilizar as informações recém-incorporadas para responder perguntas ou tomar decisões. O Aprendizado por Reforço (RL) é essencial para adquirir habilidades de raciocínio; no entanto, seu alto custo computacional o torna impraticável para uma adaptação online eficiente. Observamos empiricamente que as atualizações de parâmetros induzidas pelo SFT e pelo RL são quase ortogonais. Com base nessa observação, propomos a Transferência Paramétrica de Habilidades (PaST), uma estrutura que suporta a transferência modular de habilidades para uma adaptação de conhecimento eficiente e eficaz. Ao extrair um Vetor de Habilidade independente de domínio de um domínio de origem, podemos injetar linearmente habilidades de manipulação de conhecimento em um modelo de destino após ele ter passado por um SFT leve em novos dados. Experimentos em benchmarks de QA de incorporação de conhecimento (SQuAD, LooGLE) e de uso de ferramentas por agentes (ToolBench) demonstram a eficácia do nosso método. No SQuAD, o PaST supera a linha de base state-of-the-art de autoedição por SFT em até 9,9 pontos. O PaST ainda escala para QA de contexto longo no LooGLE com um ganho absoluto de precisão de 8,0 pontos, e melhora as taxas de sucesso zero-shot no ToolBench em +10,3 pontos em média, com ganhos consistentes entre categorias de ferramentas, indicando uma forte escalabilidade e transferibilidade cross-domain do Vetor de Habilidade.

English

Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.

Conhecimento Não é Suficiente: Injetando Habilidades de Aprendizagem por Reforço para Adaptação Contínua

Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Resumo

Support