La conoscenza non basta: l'integrazione di competenze di apprendimento per rinforzo per l'adattamento continuo

Abstract

I Modelli Linguistici di Grande Dimensione (LLM) affrontano la sfida del "limite conoscitivo" (knowledge cutoff), per cui la loro memoria parametrica congelata impedisce l'interiorizzazione diretta di nuove informazioni. Sebbene l'Addestramento Supervisionato Fine-Tuning (SFT) sia comunemente utilizzato per aggiornare le conoscenze del modello, spesso aggiorna i contenuti fattuali senza migliorare in modo affidabile la capacità del modello di utilizzare le nuove informazioni incorporate per rispondere a domande o prendere decisioni. L'Apprendimento per Rinforzo (RL) è essenziale per acquisire abilità di ragionamento; tuttavia, il suo elevato costo computazionale lo rende impraticabile per un'adattamento online efficiente. Osserviamo empiricamente che gli aggiornamenti dei parametri indotti da SFT e RL sono quasi ortogonali. Sulla base di questa osservazione, proponiamo il Trasferimento di Abilità Parametriche (Parametric Skill Transfer, PaST), un framework che supporta il trasferimento modulare delle abilità per un adattamento della conoscenza efficiente ed efficace. Estraendo un Vettore di Abilità (Skill Vector) indipendente dal dominio da un dominio sorgente, possiamo iniettare linearmente le abilità di manipolazione della conoscenza in un modello target dopo che questo ha subito un SFT leggero su nuovi dati. Esperimenti su benchmark di QA per l'incorporazione di conoscenze (SQuAD, LooGLE) e di uso strumentale agentico (ToolBench) dimostrano l'efficacia del nostro metodo. Su SQuAD, PaST supera la baseline SFT di auto-modifica allo stato dell'arte fino a 9,9 punti. PaST si scala ulteriormente al QA a contesto lungo su LooGLE con un guadagno assoluto di accuratezza di 8,0 punti e migliora i tassi di successo zero-shot su ToolBench in media di +10,3 punti, con guadagni consistenti tra le categorie di strumenti, indicando una forte scalabilità e trasferibilità cross-dominio del Vettore di Abilità.

English

Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.

La conoscenza non basta: l'integrazione di competenze di apprendimento per rinforzo per l'adattamento continuo

Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Abstract

Support