El Aprendizaje por Refuerzo Mejora el Recorrido del Conocimiento Jerárquico en los LLM
Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs
November 8, 2025
Autores: Renfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah
cs.AI
Resumen
Se suele atribuir al aprendizaje por refuerzo (RL) la mejora del razonamiento y la generalización de los modelos de lenguaje a costa de degradar el conocimiento memorizado. Cuestionamos esta narrativa al observar que los modelos potenciados con RL superan consistentemente a sus contrapartes base y ajustadas por supervisión (SFT) en tareas puras de recuperación de conocimiento, particularmente aquellas que requieren el recorrido de conocimiento estructurado y jerárquico (por ejemplo, códigos médicos). Nuestra hipótesis es que estas mejoras no provienen de datos recién adquiridos, sino de habilidades procedimentales mejoradas para navegar y buscar dentro de las jerarquías de conocimiento existentes en los parámetros del modelo. Para respaldar esta hipótesis, demostramos que la indicación estructurada, que guía explícitamente a los modelos SFT a través del recorrido jerárquico, recupera la mayor parte de la brecha de rendimiento (reduciendo de 24 pp a 7 pp en MedConceptsQA para DeepSeek-V3/R1). Además, encontramos que, si bien la indicación mejora la precisión de la respuesta final, los modelos potenciados con RL conservan una capacidad superior para recordar las rutas procedimentales correctas en tareas de recuperación profunda. Finalmente, nuestro análisis de activaciones internas por capas revela que, si bien las representaciones fácticas (por ejemplo, las activaciones para la afirmación "el código 57.95 se refiere a infección urinaria") mantienen una alta similitud de coseno entre los modelos SFT y RL, las representaciones de consulta (por ejemplo, "qué es el código 57.95") divergen notablemente, lo que indica que el RL transforma principalmente cómo los modelos recorren el conocimiento, más que la representación del conocimiento en sí.
English
Reinforcement learning (RL) is often credited with improving language model reasoning and generalization at the expense of degrading memorized knowledge. We challenge this narrative by observing that RL-enhanced models consistently outperform their base and supervised fine-tuned (SFT) counterparts on pure knowledge recall tasks, particularly those requiring traversal of hierarchical, structured knowledge (e.g., medical codes). We hypothesize these gains stem not from newly acquired data, but from improved procedural skills in navigating and searching existing knowledge hierarchies within the model parameters. To support this hypothesis, we show that structured prompting, which explicitly guides SFTed models through hierarchical traversal, recovers most of the performance gap (reducing 24pp to 7pp on MedConceptsQA for DeepSeek-V3/R1). We further find that while prompting improves final-answer accuracy, RL-enhanced models retain superior ability to recall correct procedural paths on deep-retrieval tasks. Finally our layer-wise internal activation analysis reveals that while factual representations (e.g., activations for the statement "code 57.95 refers to urinary infection") maintain high cosine similarity between SFT and RL models, query representations (e.g., "what is code 57.95") diverge noticeably, indicating that RL primarily transforms how models traverse knowledge rather than the knowledge representation itself.