KnowRL: Explorando el Aprendizaje por Refuerzo Basado en Conocimiento para la Factualidad
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality
June 24, 2025
Autores: Baochang Ren, Shuofei Qiao, Wenhao Yu, Huajun Chen, Ningyu Zhang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs), particularmente los modelos de pensamiento lento, suelen exhibir una grave alucinación, generando contenido incorrecto debido a su incapacidad para reconocer con precisión los límites del conocimiento durante el razonamiento. Si bien el Aprendizaje por Refuerzo (RL) puede mejorar las habilidades de razonamiento complejo, su mecanismo de recompensa orientado a resultados a menudo carece de supervisión factual sobre el proceso de pensamiento, lo que agrava aún más el problema de la alucinación. Para abordar la alta alucinación en los modelos de pensamiento lento, proponemos el RL mejorado con conocimiento, KnowRL. KnowRL guía a los modelos para realizar un pensamiento lento basado en hechos al integrar una recompensa de factualidad, basada en la verificación del conocimiento, en el proceso de entrenamiento de RL, ayudándoles a reconocer sus límites de conocimiento. Este enfoque de entrada factual específica durante el entrenamiento de RL permite que el modelo aprenda e internalice estrategias de razonamiento basadas en hechos. Al recompensar directamente la adherencia a los hechos dentro de los pasos de razonamiento, KnowRL fomenta un proceso de pensamiento más confiable. Los resultados experimentales en tres conjuntos de datos de evaluación de alucinación y dos conjuntos de datos de evaluación de razonamiento demuestran que KnowRL mitiga efectivamente las alucinaciones en los modelos de pensamiento lento mientras mantiene sus capacidades originales de razonamiento sólido. Nuestro código está disponible en https://github.com/zjunlp/KnowRL.
English
Large Language Models (LLMs), particularly slow-thinking models, often
exhibit severe hallucination, outputting incorrect content due to an inability
to accurately recognize knowledge boundaries during reasoning. While
Reinforcement Learning (RL) can enhance complex reasoning abilities, its
outcome-oriented reward mechanism often lacks factual supervision over the
thinking process, further exacerbating the hallucination problem. To address
the high hallucination in slow-thinking models, we propose Knowledge-enhanced
RL, KnowRL. KnowRL guides models to perform fact-based slow thinking by
integrating a factuality reward, based on knowledge verification, into the RL
training process, helping them recognize their knowledge boundaries. KnowRL
guides models to perform fact-based slow thinking by integrating a factuality
reward, based on knowledge verification, into the RL training process, helping
them recognize their knowledge boundaries. This targeted factual input during
RL training enables the model to learn and internalize fact-based reasoning
strategies. By directly rewarding adherence to facts within the reasoning
steps, KnowRL fosters a more reliable thinking process. Experimental results on
three hallucination evaluation datasets and two reasoning evaluation datasets
demonstrate that KnowRL effectively mitigates hallucinations in slow-thinking
models while maintaining their original strong reasoning capabilities. Our code
is available at https://github.com/zjunlp/KnowRL.