KnowRL: Verbetering van redeneervermogen van grote taalmiddelen via reinforcement learning met minimale-voldoende-kennissturing

Samenvatting

RLVR verbetert het redeneervermogen van grote taalmodelen, maar de effectiviteit wordt vaak beperkt door ernstige beloningsschaarste bij moeilijke problemen. Recente op hints gebaseerde RL-methoden verminderen deze schaarste door deeloplossingen of abstracte sjablonen in te brengen, maar ze schalen de begeleiding typisch door meer tokens toe te voegen, wat redundantie, inconsistentie en extra trainingsoverhead introduceert. Wij stellen KnowRL (Knowledge-Guided Reinforcement Learning) voor, een RL-trainingsraamwerk dat hintontwerp behandelt als een minimaal-voldoende-begeleidingsprobleem. Tijdens de RL-training deconstrueert KnowRL begeleiding in atomaire kennispunten (KP's) en gebruikt Constrained Subset Search (CSS) om compacte, interactiebewuste subsets voor training te construeren. Wij identificeren verder een paradox van interactie bij het snoeien – het verwijderen van één KP kan helpen, terwijl het verwijderen van meerdere van dergelijke KP's kan schaden – en optimaliseren expliciet voor robuuste subsetcuratie onder deze afhankelijkheidsstructuur. Wij trainen KnowRL-Nemotron-1.5B vanuit OpenMath-Nemotron-1.5B. Over acht redeneerbenchmarks op de 1.5B-schaal presteert KnowRL-Nemotron-1.5B consistent beter dan sterke RL- en hinting-baselines. Zonder KP-hints tijdens inferentie bereikt KnowRL-Nemotron-1.5B een gemiddelde nauwkeurigheid van 70.08, wat Nemotron-1.5B al met +9.63 punten overstijgt; met geselecteerde KP's verbetert de prestatie tot 74.16, wat een nieuwe state-of-the-art op deze schaal vestigt. Het model, de gecureerde trainingsdata en de code zijn openbaar beschikbaar op https://github.com/Hasuer/KnowRL.

English

RLVR improves reasoning in large language models, but its effectiveness is often limited by severe reward sparsity on hard problems. Recent hint-based RL methods mitigate sparsity by injecting partial solutions or abstract templates, yet they typically scale guidance by adding more tokens, which introduce redundancy, inconsistency, and extra training overhead. We propose KnowRL (Knowledge-Guided Reinforcement Learning), an RL training framework that treats hint design as a minimal-sufficient guidance problem. During RL training, KnowRL decomposes guidance into atomic knowledge points (KPs) and uses Constrained Subset Search (CSS) to construct compact, interaction-aware subsets for training. We further identify a pruning interaction paradox -- removing one KP may help while removing multiple such KPs can hurt -- and explicitly optimize for robust subset curation under this dependency structure. We train KnowRL-Nemotron-1.5B from OpenMath-Nemotron-1.5B. Across eight reasoning benchmarks at the 1.5B scale, KnowRL-Nemotron-1.5B consistently outperforms strong RL and hinting baselines. Without KP hints at inference, KnowRL-Nemotron-1.5B reaches 70.08 average accuracy, already surpassing Nemotron-1.5B by +9.63 points; with selected KPs, performance improves to 74.16, establishing a new state of the art at this scale. The model, curated training data, and code are publicly available at https://github.com/Hasuer/KnowRL.

KnowRL: Verbetering van redeneervermogen van grote taalmiddelen via reinforcement learning met minimale-voldoende-kennissturing

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

Samenvatting

Support