KnowRL: Potenciación del Razonamiento en LLM mediante Aprendizaje por Refuerzo con Guía de Conocimiento Mínimo-Suficiente

Resumen

RLVR mejora el razonamiento en modelos de lenguaje grandes, pero su eficacia a menudo se ve limitada por la severa escasez de recompensas en problemas difíciles. Los métodos recientes de RL basados en pistas mitigan esta escasez inyectando soluciones parciales o plantillas abstractas; sin embargo, generalmente escalan la guía añadiendo más tokens, lo que introduce redundancia, inconsistencia y sobrecarga computacional adicional. Proponemos KnowRL (Aprendizaje por Refuerzo Guiado por Conocimiento), un marco de entrenamiento de RL que trata el diseño de pistas como un problema de guía mínima suficiente. Durante el entrenamiento de RL, KnowRL descompone la guía en puntos de conocimiento atómicos (KP) y utiliza Búsqueda de Subconjuntos Restringida (CSS) para construir subconjuntos compactos y conscientes de la interacción para el entrenamiento. Además, identificamos una paradoja de interacción en la poda: eliminar un KP puede ayudar, mientras que eliminar múltiples de estos KPs puede perjudicar, y optimizamos explícitamente la curación robusta de subconjuntos bajo esta estructura de dependencia. Entrenamos KnowRL-Nemotron-1.5B a partir de OpenMath-Nemotron-1.5B. En ocho benchmarks de razonamiento a escala 1.5B, KnowRL-Nemotron-1.5B supera consistentemente a sólidas líneas base de RL y métodos con pistas. Sin pistas de KP en la inferencia, KnowRL-Nemotron-1.5B alcanza una precisión promedio de 70.08, superando ya a Nemotron-1.5B por +9.63 puntos; con KPs seleccionados, el rendimiento mejora a 74.16, estableciendo un nuevo estado del arte a esta escala. El modelo, los datos de entrenamiento curados y el código están disponibles públicamente en https://github.com/Hasuer/KnowRL.

English

RLVR improves reasoning in large language models, but its effectiveness is often limited by severe reward sparsity on hard problems. Recent hint-based RL methods mitigate sparsity by injecting partial solutions or abstract templates, yet they typically scale guidance by adding more tokens, which introduce redundancy, inconsistency, and extra training overhead. We propose KnowRL (Knowledge-Guided Reinforcement Learning), an RL training framework that treats hint design as a minimal-sufficient guidance problem. During RL training, KnowRL decomposes guidance into atomic knowledge points (KPs) and uses Constrained Subset Search (CSS) to construct compact, interaction-aware subsets for training. We further identify a pruning interaction paradox -- removing one KP may help while removing multiple such KPs can hurt -- and explicitly optimize for robust subset curation under this dependency structure. We train KnowRL-Nemotron-1.5B from OpenMath-Nemotron-1.5B. Across eight reasoning benchmarks at the 1.5B scale, KnowRL-Nemotron-1.5B consistently outperforms strong RL and hinting baselines. Without KP hints at inference, KnowRL-Nemotron-1.5B reaches 70.08 average accuracy, already surpassing Nemotron-1.5B by +9.63 points; with selected KPs, performance improves to 74.16, establishing a new state of the art at this scale. The model, curated training data, and code are publicly available at https://github.com/Hasuer/KnowRL.

KnowRL: Potenciación del Razonamiento en LLM mediante Aprendizaje por Refuerzo con Guía de Conocimiento Mínimo-Suficiente

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

Resumen

Support