강화 학습을 통한 대규모 언어 모델의 계층적 지구조 순회 능력 향상
Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs
November 8, 2025
저자: Renfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah
cs.AI
초록
강화학습(RL)은 암기된 지식의 저하를 대가로 언어 모델의 추론 및 일반화 능력을 향상시킨다는 평가를 종종 받습니다. 본 연구는 이러한 통념에 의문을 제기하며, RL로 강화된 모델들이 순수 지식 회상 과제, 특히 계층적 구조화된 지식(예: 의료 코드)의 탐색이 필요한 과제에서 기준 모델과 지도 미세조정(SFT) 모델을 지속적으로 능가함을 관찰했습니다. 우리는 이러한 성능 향상이 새로 습득한 데이터에서 비롯된 것이 아니라, 모델 매개변수 내에 존재하는 기존 지식 계층 구조를 탐색하고 검색하는 절차적 기술이 향상되었기 때문이라고 가정합니다. 이 가설을 뒷받침하기 위해, 계층적 탐색을 명시적으로 안내하는 구조화된 프롬프팅이 SFT 모델의 성능 격차 대부분을 회복시킴을 보여줍니다(MedConceptsQA 데이터셋에서 DeepSeek-V3/R1의 격차를 24%p에서 7%p로 축소). 또한 프롬프팅이 최종 답변 정확도는 향상시키지만, RL 강화 모델은 심층 검색 과제에서 올바른 절차적 경로를 회상하는 능력이 여전히 우월함을 발견했습니다. 마지막으로, 계층별 내부 활성화 분석 결과, 사실적 표현(예: "코드 57.95는 요로 감염을 의미함"이라는 문장에 대한 활성화)은 SFT와 RL 모델 간 높은 코사인 유사도를 유지하는 반면, 질의 표현(예: "코드 57.95는 무엇인가요?")은 뚜렷이 차이를 보여 RL이 주로 지식 표현 자체가 아니라 모델이 지식을 탐색하는 방식을 변형시킨다는 것을 시사합니다.
English
Reinforcement learning (RL) is often credited with improving language model reasoning and generalization at the expense of degrading memorized knowledge. We challenge this narrative by observing that RL-enhanced models consistently outperform their base and supervised fine-tuned (SFT) counterparts on pure knowledge recall tasks, particularly those requiring traversal of hierarchical, structured knowledge (e.g., medical codes). We hypothesize these gains stem not from newly acquired data, but from improved procedural skills in navigating and searching existing knowledge hierarchies within the model parameters. To support this hypothesis, we show that structured prompting, which explicitly guides SFTed models through hierarchical traversal, recovers most of the performance gap (reducing 24pp to 7pp on MedConceptsQA for DeepSeek-V3/R1). We further find that while prompting improves final-answer accuracy, RL-enhanced models retain superior ability to recall correct procedural paths on deep-retrieval tasks. Finally our layer-wise internal activation analysis reveals that while factual representations (e.g., activations for the statement "code 57.95 refers to urinary infection") maintain high cosine similarity between SFT and RL models, query representations (e.g., "what is code 57.95") diverge noticeably, indicating that RL primarily transforms how models traverse knowledge rather than the knowledge representation itself.