KnowRL: 事実性のための知識豊富な強化学習の探求
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality
June 24, 2025
著者: Baochang Ren, Shuofei Qiao, Wenhao Yu, Huajun Chen, Ningyu Zhang
cs.AI
要旨
大規模言語モデル(LLMs)、特に遅い思考を行うモデルは、推論中に知識の境界を正確に認識できないため、誤った内容を出力する深刻な幻覚(hallucination)を示すことが多い。強化学習(Reinforcement Learning, RL)は複雑な推論能力を向上させることができるが、その結果指向型の報酬メカニズムは思考プロセスに対する事実に基づく監督を欠いており、幻覚問題をさらに悪化させることがある。遅い思考モデルにおける高い幻覚を解決するため、我々は知識強化型RLであるKnowRLを提案する。KnowRLは、知識検証に基づく事実性報酬をRLトレーニングプロセスに統合することで、モデルが知識の境界を認識し、事実に基づいた遅い思考を行うよう導く。このRLトレーニング中のターゲットを絞った事実入力により、モデルは事実に基づいた推論戦略を学習し、内在化することが可能となる。推論ステップ内での事実への忠実さを直接報酬とすることで、KnowRLはより信頼性の高い思考プロセスを促進する。3つの幻覚評価データセットと2つの推論評価データセットにおける実験結果は、KnowRLが遅い思考モデルの幻覚を効果的に軽減しつつ、元々の強力な推論能力を維持することを示している。我々のコードはhttps://github.com/zjunlp/KnowRLで公開されている。
English
Large Language Models (LLMs), particularly slow-thinking models, often
exhibit severe hallucination, outputting incorrect content due to an inability
to accurately recognize knowledge boundaries during reasoning. While
Reinforcement Learning (RL) can enhance complex reasoning abilities, its
outcome-oriented reward mechanism often lacks factual supervision over the
thinking process, further exacerbating the hallucination problem. To address
the high hallucination in slow-thinking models, we propose Knowledge-enhanced
RL, KnowRL. KnowRL guides models to perform fact-based slow thinking by
integrating a factuality reward, based on knowledge verification, into the RL
training process, helping them recognize their knowledge boundaries. KnowRL
guides models to perform fact-based slow thinking by integrating a factuality
reward, based on knowledge verification, into the RL training process, helping
them recognize their knowledge boundaries. This targeted factual input during
RL training enables the model to learn and internalize fact-based reasoning
strategies. By directly rewarding adherence to facts within the reasoning
steps, KnowRL fosters a more reliable thinking process. Experimental results on
three hallucination evaluation datasets and two reasoning evaluation datasets
demonstrate that KnowRL effectively mitigates hallucinations in slow-thinking
models while maintaining their original strong reasoning capabilities. Our code
is available at https://github.com/zjunlp/KnowRL.