KnowRL: Impulsionando o Raciocínio de LLMs por Meio de Aprendizagem por Reforço com Orientação de Conhecimento Mínimo-Suficiente

Resumo

O RLVR (Reinforcement Learning from Verbal Feedback) melhora o raciocínio em grandes modelos de linguagem, mas a sua eficácia é frequentemente limitada pela severa esparsidade de recompensas em problemas difíceis. Métodos recentes de RL baseados em dicas mitigam a esparsidade através da injeção de soluções parciais ou templates abstratos; no entanto, eles geralmente dimensionam a orientação adicionando mais *tokens*, o que introduz redundância, inconsistência e sobrecarga adicional de treinamento. Propomos o KnowRL (*Knowledge-Guided Reinforcement Learning*), um *framework* de treinamento por RL que trata o projeto de dicas como um problema de orientação mínima suficiente. Durante o treinamento por RL, o KnowRL decompõe a orientação em pontos de conhecimento atômicos (KPs, do inglês *Knowledge Points*) e usa a Busca por Subconjuntos Restritos (CSS, do inglês *Constrained Subset Search*) para construir subconjuntos compactos e cientes da interação para o treinamento. Identificamos ainda um paradoxo da interação de poda – a remoção de um KP pode ajudar, enquanto a remoção de múltiplos desses KPs pode prejudicar – e otimizamos explicitamente a curadoria robusta de subconjuntos sob esta estrutura de dependência. Treinamos o KnowRL-Nemotron-1.5B a partir do OpenMath-Nemotron-1.5B. Em oito *benchmarks* de raciocínio na escala de 1.5B, o KnowRL-Nemotron-1.5B supera consistentemente as fortes linhas de base de RL e de métodos com dicas. Sem as dicas de KP na inferência, o KnowRL-Nemotron-1.5B atinge uma precisão média de 70.08, superando já o Nemotron-1.5B em +9.63 pontos; com KPs selecionados, o desempenho melhora para 74.16, estabelecendo um novo estado da arte nesta escala. O modelo, os dados de treinamento curados e o código estão publicamente disponíveis em https://github.com/Hasuer/KnowRL.

English

RLVR improves reasoning in large language models, but its effectiveness is often limited by severe reward sparsity on hard problems. Recent hint-based RL methods mitigate sparsity by injecting partial solutions or abstract templates, yet they typically scale guidance by adding more tokens, which introduce redundancy, inconsistency, and extra training overhead. We propose KnowRL (Knowledge-Guided Reinforcement Learning), an RL training framework that treats hint design as a minimal-sufficient guidance problem. During RL training, KnowRL decomposes guidance into atomic knowledge points (KPs) and uses Constrained Subset Search (CSS) to construct compact, interaction-aware subsets for training. We further identify a pruning interaction paradox -- removing one KP may help while removing multiple such KPs can hurt -- and explicitly optimize for robust subset curation under this dependency structure. We train KnowRL-Nemotron-1.5B from OpenMath-Nemotron-1.5B. Across eight reasoning benchmarks at the 1.5B scale, KnowRL-Nemotron-1.5B consistently outperforms strong RL and hinting baselines. Without KP hints at inference, KnowRL-Nemotron-1.5B reaches 70.08 average accuracy, already surpassing Nemotron-1.5B by +9.63 points; with selected KPs, performance improves to 74.16, establishing a new state of the art at this scale. The model, curated training data, and code are publicly available at https://github.com/Hasuer/KnowRL.

KnowRL: Impulsionando o Raciocínio de LLMs por Meio de Aprendizagem por Reforço com Orientação de Conhecimento Mínimo-Suficiente

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

Resumo

Support