ChatPaper.aiChatPaper

Versterkend Leren Verbeterd het Doorlopen van Hiërarchische Kennis in LLM's

Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

November 8, 2025
Auteurs: Renfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah
cs.AI

Samenvatting

Versterkend leren (RL) wordt vaak genoemd als methode die het redeneervermogen en de generalisatie van taalmodellen verbetert, ten koste van gememoriseerde kennis. Wij betwisten dit verhaal door de observatie dat met RL verbeterde modellen consequent beter presteren dan hun basis- en supervised fine-tuned (SFT) tegenhangers bij pure kennisrecall-taken, vooral bij taken die het doorlopen van hiërarchische, gestructureerde kennis vereisen (bijv. medische codes). Wij veronderstellen dat deze winst niet voortkomt uit nieuw verworven data, maar uit verbeterde procedurele vaardigheden in het navigeren en doorzoeken van bestaande kennishiërarchieën binnen de modelparameters. Om deze hypothese te ondersteunen, tonen we aan dat gestructureerde prompting, waarbij SFT-modellen expliciet worden begeleid bij hiërarchische traversering, het grootste deel van het prestatieverschil wegneemt (van 24 procentpunt naar 7 procentpunt op MedConceptsQA voor DeepSeek-V3/R1). Verder constateren we dat hoewel prompting de nauwkeurigheid van het eindantwoord verbetert, RL-verbeterde modellen een superieur vermogen behouden om de juiste procedurele paden te herinneren bij diepe-retrieval-taken. Ten slotte toont onze laaggewijze analyse van interne activaties aan dat hoewel feitelijke representaties (bijv. activaties voor de stelling "code 57.95 verwijst naar urineweginfectie") een hoge cosinusgelijkenis behouden tussen SFT- en RL-modellen, queryrepresentaties (bijv. "wat is code 57.95") merkbaar divergeren. Dit geeft aan dat RL vooral verandert hoe modellen kennis doorlopen, en niet de kennisrepresentatie zelf.
English
Reinforcement learning (RL) is often credited with improving language model reasoning and generalization at the expense of degrading memorized knowledge. We challenge this narrative by observing that RL-enhanced models consistently outperform their base and supervised fine-tuned (SFT) counterparts on pure knowledge recall tasks, particularly those requiring traversal of hierarchical, structured knowledge (e.g., medical codes). We hypothesize these gains stem not from newly acquired data, but from improved procedural skills in navigating and searching existing knowledge hierarchies within the model parameters. To support this hypothesis, we show that structured prompting, which explicitly guides SFTed models through hierarchical traversal, recovers most of the performance gap (reducing 24pp to 7pp on MedConceptsQA for DeepSeek-V3/R1). We further find that while prompting improves final-answer accuracy, RL-enhanced models retain superior ability to recall correct procedural paths on deep-retrieval tasks. Finally our layer-wise internal activation analysis reveals that while factual representations (e.g., activations for the statement "code 57.95 refers to urinary infection") maintain high cosine similarity between SFT and RL models, query representations (e.g., "what is code 57.95") diverge noticeably, indicating that RL primarily transforms how models traverse knowledge rather than the knowledge representation itself.
PDF72December 2, 2025