L'apprentissage par renforcement améliore le parcours des connaissances hiérarchiques dans les LLM.
Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs
November 8, 2025
papers.authors: Renfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) est souvent crédité d'améliorer le raisonnement et la généralisation des modèles linguistiques au détriment de la dégradation des connaissances mémorisées. Nous remettons en cause ce récit en observant que les modèles optimisés par RL surpassent systématiquement leurs homologues de base et affinés par apprentissage supervisé (SFT) sur des tâches de rappel pur de connaissances, en particulier celles nécessitant le parcours de connaissances structurées hiérarchiques (par exemple, les codes médicaux). Nous émettons l'hypothèse que ces gains ne proviennent pas de nouvelles données acquises, mais de compétences procédurales améliorées pour naviguer et rechercher dans les hiérarchies de connaissances existantes au sein des paramètres du modèle. Pour étayer cette hypothèse, nous montrons que l'incitation structurée, qui guide explicitement les modèles SFT à travers un parcours hiérarchique, comble la majeure partie de l'écart de performance (réduisant de 24 points de pourcentage à 7 pp sur MedConceptsQA pour DeepSeek-V3/R1). Nous constatons en outre que si l'incitation améliore la précision de la réponse finale, les modèles optimisés par RL conservent une capacité supérieure à rappeler les chemins procéduraux corrects dans les tâches de récupération profonde. Enfin, notre analyse des activations internes couche par couche révèle que si les représentations factuelles (par exemple, les activations pour l'énoncé "le code 57.95 fait référence à une infection urinaire") maintiennent une similarité cosinus élevée entre les modèles SFT et RL, les représentations des requêtes (par exemple, "qu'est-ce que le code 57.95") divergent notablement, indiquant que le RL transforme principalement la façon dont les modèles parcourent les connaissances plutôt que la représentation des connaissances elle-même.
English
Reinforcement learning (RL) is often credited with improving language model reasoning and generalization at the expense of degrading memorized knowledge. We challenge this narrative by observing that RL-enhanced models consistently outperform their base and supervised fine-tuned (SFT) counterparts on pure knowledge recall tasks, particularly those requiring traversal of hierarchical, structured knowledge (e.g., medical codes). We hypothesize these gains stem not from newly acquired data, but from improved procedural skills in navigating and searching existing knowledge hierarchies within the model parameters. To support this hypothesis, we show that structured prompting, which explicitly guides SFTed models through hierarchical traversal, recovers most of the performance gap (reducing 24pp to 7pp on MedConceptsQA for DeepSeek-V3/R1). We further find that while prompting improves final-answer accuracy, RL-enhanced models retain superior ability to recall correct procedural paths on deep-retrieval tasks. Finally our layer-wise internal activation analysis reveals that while factual representations (e.g., activations for the statement "code 57.95 refers to urinary infection") maintain high cosine similarity between SFT and RL models, query representations (e.g., "what is code 57.95") diverge noticeably, indicating that RL primarily transforms how models traverse knowledge rather than the knowledge representation itself.