L'Apprendimento per Rinforzo Migliora l'Attraversamento della Conoscenza Gerarchica nei Modelli Linguistici di Grandi Dimensioni
Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs
November 8, 2025
Autori: Renfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah
cs.AI
Abstract
L'apprendimento per rinforzo (RL) viene spesso riconosciuto per migliorare il ragionamento e la generalizzazione dei modelli linguistici a scapito del degrado della conoscenza memorizzata. Noi contestiamo questa narrativa osservando che i modelli potenziati con RL superano costantemente le loro controparti base e addestrate con fine-tuning supervisionato (SFT) in compiti di puro richiamo di conoscenza, in particolare quelli che richiedono l'attraversamento di conoscenze strutturate gerarchicamente (ad esempio, codici medici). Ipotesizziamo che questi guadagni non derivino da dati appena acquisiti, ma da capacità procedurali migliorate nel navigare e cercare all'interno delle gerarchie di conoscenza esistenti nei parametri del modello. Per supportare questa ipotesi, dimostriamo che il prompting strutturato, che guida esplicitamente i modelli SFT attraverso l'attraversamento gerarchico, recupera la maggior parte del divario di prestazione (riducendo da 24pp a 7pp su MedConceptsQA per DeepSeek-V3/R1). Inoltre, scopriamo che mentre il prompting migliora l'accuratezza della risposta finale, i modelli potenziati con RL mantengono una capacità superiore di ricordare i percorsi procedurali corretti in compiti di recupero profondo. Infine, la nostra analisi delle attivazioni interne strato per strato rivela che, mentre le rappresentazioni fattuali (ad esempio, le attivazioni per l'affermazione "il codice 57.95 si riferisce a un'infezione urinaria") mantengono un'alta similarità del coseno tra i modelli SFT e RL, le rappresentazioni delle query (ad esempio, "cos'è il codice 57.95") divergono in modo evidente, indicando che l'RL trasforma principalmente il modo in cui i modelli attraversano la conoscenza piuttosto che la rappresentazione della conoscenza stessa.
English
Reinforcement learning (RL) is often credited with improving language model reasoning and generalization at the expense of degrading memorized knowledge. We challenge this narrative by observing that RL-enhanced models consistently outperform their base and supervised fine-tuned (SFT) counterparts on pure knowledge recall tasks, particularly those requiring traversal of hierarchical, structured knowledge (e.g., medical codes). We hypothesize these gains stem not from newly acquired data, but from improved procedural skills in navigating and searching existing knowledge hierarchies within the model parameters. To support this hypothesis, we show that structured prompting, which explicitly guides SFTed models through hierarchical traversal, recovers most of the performance gap (reducing 24pp to 7pp on MedConceptsQA for DeepSeek-V3/R1). We further find that while prompting improves final-answer accuracy, RL-enhanced models retain superior ability to recall correct procedural paths on deep-retrieval tasks. Finally our layer-wise internal activation analysis reveals that while factual representations (e.g., activations for the statement "code 57.95 refers to urinary infection") maintain high cosine similarity between SFT and RL models, query representations (e.g., "what is code 57.95") diverge noticeably, indicating that RL primarily transforms how models traverse knowledge rather than the knowledge representation itself.