Усиление обучения улучшает навигацию по иерархическим знаниям в больших языковых моделях
Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs
November 8, 2025
Авторы: Renfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah
cs.AI
Аннотация
Обучение с подкреплением (RL) часто считается методом, который улучшает способность языковых моделей к рассуждениям и обобщению ценой ухудшения запомненных знаний. Мы оспариваем эту точку зрения, отмечая, что модели, усиленные RL, стабильно превосходят свои базовые версии и модели, дообученные с учителем (SFT), в задачах на простое воспроизведение знаний, особенно тех, которые требуют обхода иерархических, структурированных знаний (например, медицинских кодов). Мы выдвигаем гипотезу, что эти улучшения связаны не с усвоением новых данных, а с развитием процедурных навыков навигации и поиска в существующих иерархиях знаний, закодированных в параметрах модели. В подтверждение этой гипотезы мы демонстрируем, что структурированные промпты, которые явно направляют SFT-модели по иерархии, позволяют устранить большую часть разрыва в производительности (сокращая его с 24 п.п. до 7 п.п. на наборе MedConceptsQA для DeepSeek-V3/R1). Мы также обнаруживаем, что, хотя промпты повышают точность конечного ответа, модели с RL сохраняют превосходство в способности воспроизводить правильные процедурные пути в задачах глубокого поиска. Наконец, наш послойный анализ внутренних активаций показывает, что хотя репрезентации фактов (например, активации для утверждения «код 57.95 означает инфекцию мочевыводящих путей») сохраняют высокое косинусное сходство между SFT- и RL-моделями, репрезентации запросов (например, «что означает код 57.95») заметно расходятся, что указывает на то, что RL в первую очередь меняет то, как модели обходят знания, а не сами репрезентации знаний.
English
Reinforcement learning (RL) is often credited with improving language model reasoning and generalization at the expense of degrading memorized knowledge. We challenge this narrative by observing that RL-enhanced models consistently outperform their base and supervised fine-tuned (SFT) counterparts on pure knowledge recall tasks, particularly those requiring traversal of hierarchical, structured knowledge (e.g., medical codes). We hypothesize these gains stem not from newly acquired data, but from improved procedural skills in navigating and searching existing knowledge hierarchies within the model parameters. To support this hypothesis, we show that structured prompting, which explicitly guides SFTed models through hierarchical traversal, recovers most of the performance gap (reducing 24pp to 7pp on MedConceptsQA for DeepSeek-V3/R1). We further find that while prompting improves final-answer accuracy, RL-enhanced models retain superior ability to recall correct procedural paths on deep-retrieval tasks. Finally our layer-wise internal activation analysis reveals that while factual representations (e.g., activations for the statement "code 57.95 refers to urinary infection") maintain high cosine similarity between SFT and RL models, query representations (e.g., "what is code 57.95") diverge noticeably, indicating that RL primarily transforms how models traverse knowledge rather than the knowledge representation itself.