O Aprendizado por Reforço Melhora a Travessia do Conhecimento Hierárquico em LLMs

Resumo

O aprendizado por reforço (RL) é frequentemente creditado por melhorar o raciocínio e a generalização de modelos de linguagem à custa da degradação do conhecimento memorizado. Desafiamos esta narrativa ao observar que os modelos aprimorados por RL superam consistentemente suas contrapartes base e ajustadas por supervisão (SFT) em tarefas puras de recordação de conhecimento, particularmente naquelas que exigem o percurso de conhecimento estruturado e hierárquico (por exemplo, códigos médicos). Nossa hipótese é que esses ganhos não derivam de dados recém-adquiridos, mas de habilidades processuais aprimoradas para navegar e pesquisar as hierarquias de conhecimento existentes nos parâmetros do modelo. Para apoiar esta hipótese, mostramos que o *prompting* estruturado, que guia explicitamente os modelos SFT através do percurso hierárquico, recupera a maior parte da diferença de desempenho (reduzindo de 24pp para 7pp no MedConceptsQA para DeepSeek-V3/R1). Adicionalmente, descobrimos que, embora o *prompting* melhore a precisão da resposta final, os modelos aprimorados por RL mantêm uma capacidade superior de recordar os caminhos processuais corretos em tarefas de recuperação profunda. Por fim, nossa análise das ativações internas por camadas revela que, embora as representações factuais (por exemplo, as ativações para a afirmação "o código 57.95 refere-se a infecção urinária") mantenham alta similaridade de cosseno entre os modelos SFT e RL, as representações de consulta (por exemplo, "o que é o código 57.95") divergem notavelmente, indicando que o RL transforma principalmente a forma como os modelos percorrem o conhecimento, e não a representação do conhecimento em si.

English

Reinforcement learning (RL) is often credited with improving language model reasoning and generalization at the expense of degrading memorized knowledge. We challenge this narrative by observing that RL-enhanced models consistently outperform their base and supervised fine-tuned (SFT) counterparts on pure knowledge recall tasks, particularly those requiring traversal of hierarchical, structured knowledge (e.g., medical codes). We hypothesize these gains stem not from newly acquired data, but from improved procedural skills in navigating and searching existing knowledge hierarchies within the model parameters. To support this hypothesis, we show that structured prompting, which explicitly guides SFTed models through hierarchical traversal, recovers most of the performance gap (reducing 24pp to 7pp on MedConceptsQA for DeepSeek-V3/R1). We further find that while prompting improves final-answer accuracy, RL-enhanced models retain superior ability to recall correct procedural paths on deep-retrieval tasks. Finally our layer-wise internal activation analysis reveals that while factual representations (e.g., activations for the statement "code 57.95 refers to urinary infection") maintain high cosine similarity between SFT and RL models, query representations (e.g., "what is code 57.95") diverge noticeably, indicating that RL primarily transforms how models traverse knowledge rather than the knowledge representation itself.

O Aprendizado por Reforço Melhora a Travessia do Conhecimento Hierárquico em LLMs

Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

Resumo

Support