ChatPaper.aiChatPaper

強化学習による大規模言語モデルの階層的知識横断の改善

Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

November 8, 2025
著者: Renfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah
cs.AI

要旨

強化学習(RL)は、記憶された知識の劣化を代償として、言語モデルの推論能力と汎化性能を向上させるとしばしば評価される。我々はこの通説に異議を唱える。RLを適用したモデルが、特に階層的で構造化された知識(医療コードなど)の探索を要するタスクにおいて、ベースモデルや教師ありファインチューニング(SFT)モデルを純粋な知識想起タスクで一貫して上回ることを観察したからである。我々は、この性能向上が新たに獲得したデータに由来するのではなく、モデルパラメータ内に存在する既知の知識階層を効率的に探索・移動するための手続き的スキルが改善された結果であると仮説を立てる。この仮説を支持するため、階層的な探索を明示的に誘導する構造化プロンプトをSFTモデルに適用すると、性能差の大部分が解消されること(DeepSeek-V3/R1においてMedConceptsQAの性能差を24ppから7ppに縮小)を示す。さらに、プロンプトによる手法が最終回答の精度を向上させる一方で、RL適用モデルは深層検索タスクにおいて正しい手続き的経路を想起する優れた能力を保持し続けることを明らかにする。最後に、層ごとの内部活性化分析により、事実に関する表現(例:「コード57.95は尿路感染症を指す」という陈述に対する活性化)はSFTモデルとRLモデル間で高いコサイン類似性を維持するのに対し、質問表現(例:「コード57.95は何か」)は顕著に乖離することを示す。これはRLが主に知識の表現そのものではなく、モデルが知識を探索する方法を変容させることを示唆している。
English
Reinforcement learning (RL) is often credited with improving language model reasoning and generalization at the expense of degrading memorized knowledge. We challenge this narrative by observing that RL-enhanced models consistently outperform their base and supervised fine-tuned (SFT) counterparts on pure knowledge recall tasks, particularly those requiring traversal of hierarchical, structured knowledge (e.g., medical codes). We hypothesize these gains stem not from newly acquired data, but from improved procedural skills in navigating and searching existing knowledge hierarchies within the model parameters. To support this hypothesis, we show that structured prompting, which explicitly guides SFTed models through hierarchical traversal, recovers most of the performance gap (reducing 24pp to 7pp on MedConceptsQA for DeepSeek-V3/R1). We further find that while prompting improves final-answer accuracy, RL-enhanced models retain superior ability to recall correct procedural paths on deep-retrieval tasks. Finally our layer-wise internal activation analysis reveals that while factual representations (e.g., activations for the statement "code 57.95 refers to urinary infection") maintain high cosine similarity between SFT and RL models, query representations (e.g., "what is code 57.95") diverge noticeably, indicating that RL primarily transforms how models traverse knowledge rather than the knowledge representation itself.
PDF72December 2, 2025