KnowRL: Potenziamento del Ragionamento dei LLM tramite Apprendimento per Rinforzo con Guida di Conoscenza Minima Sufficiente
KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
April 14, 2026
Autori: Linhao Yu, Tianmeng Yang, Siyu Ding, Renren Jin, Naibin Gu, Xiangzhao Hao, Shuaiyi Nie, Deyi Xiong, Weichong Yin, Yu Sun, Hua Wu
cs.AI
Abstract
RLVR migliora il ragionamento nei grandi modelli linguistici, ma la sua efficacia è spesso limitata da una grave scarsità di ricompense su problemi complessi. Recenti metodi RL basati su suggerimenti mitigano la scarsità iniettando soluzioni parziali o template astratti, tuttavia tipicamente scalano la guida aggiungendo più token, introducendo ridondanza, incoerenza e sovraccarico addizionale durante l'addestramento. Proponiamo KnowRL (Knowledge-Guided Reinforcement Learning), un framework di addestramento RL che tratta la progettazione dei suggerimenti come un problema di guida minimo-sufficiente. Durante l'addestramento RL, KnowRL scompone la guida in punti di conoscenza atomici (KP, Knowledge Points) e utilizza la Ricerca di Sottoinsiemi Vincolata (CSS, Constrained Subset Search) per costruire sottoinsiemi compatti e interazione-consapevoli per l'addestramento. Identifichiamo inoltre un paradosso dell'interazione di potatura -- la rimozione di un KP può aiutare, mentre la rimozione di più KP simili può danneggiare le prestazioni -- e ottimizziamo esplicitamente per una selezione robusta dei sottoinsiemi sotto questa struttura di dipendenze. Addestriamo KnowRL-Nemotron-1.5B a partire da OpenMath-Nemotron-1.5B. Su otto benchmark di ragionamento alla scala 1.5B, KnowRL-Nemotron-1.5B supera costantemente forti baseline RL e basate su suggerimenti. Senza l'uso di suggerimenti KP durante l'inferenza, KnowRL-Nemotron-1.5B raggiunge una accuratezza media del 70.08, superando già Nemotron-1.5B di +9.63 punti; con KP selezionati, le prestazioni migliorano fino al 74.16, stabilendo un nuovo stato dell'arte a questa scala. Il modello, i dati di addestramento curati e il codice sono pubblicamente disponibili all'indirizzo https://github.com/Hasuer/KnowRL.
English
RLVR improves reasoning in large language models, but its effectiveness is often limited by severe reward sparsity on hard problems. Recent hint-based RL methods mitigate sparsity by injecting partial solutions or abstract templates, yet they typically scale guidance by adding more tokens, which introduce redundancy, inconsistency, and extra training overhead. We propose KnowRL (Knowledge-Guided Reinforcement Learning), an RL training framework that treats hint design as a minimal-sufficient guidance problem. During RL training, KnowRL decomposes guidance into atomic knowledge points (KPs) and uses Constrained Subset Search (CSS) to construct compact, interaction-aware subsets for training. We further identify a pruning interaction paradox -- removing one KP may help while removing multiple such KPs can hurt -- and explicitly optimize for robust subset curation under this dependency structure. We train KnowRL-Nemotron-1.5B from OpenMath-Nemotron-1.5B. Across eight reasoning benchmarks at the 1.5B scale, KnowRL-Nemotron-1.5B consistently outperforms strong RL and hinting baselines. Without KP hints at inference, KnowRL-Nemotron-1.5B reaches 70.08 average accuracy, already surpassing Nemotron-1.5B by +9.63 points; with selected KPs, performance improves to 74.16, establishing a new state of the art at this scale. The model, curated training data, and code are publicly available at https://github.com/Hasuer/KnowRL.