ChatPaper.aiChatPaper

TruthRL: Incentivizando la Veracidad en LLMs mediante Aprendizaje por Refuerzo

TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

September 30, 2025
Autores: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
cs.AI

Resumen

Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en la respuesta a preguntas factuales, aún son propensos a la alucinación y a respuestas no veraces, especialmente cuando las tareas requieren información fuera de su conocimiento paramétrico. En efecto, la veracidad exige más que precisión: los modelos también deben reconocer la incertidumbre y abstenerse cuando no estén seguros para evitar alucinaciones. Esto presenta un desafío fundamental para los métodos existentes: los enfoques que optimizan la precisión a menudo amplifican las alucinaciones, mientras que aquellos que fomentan la abstención pueden volverse excesivamente conservadores, sacrificando respuestas correctas. Ambos extremos comprometen finalmente la veracidad. En este trabajo, presentamos TruthRL, un marco general de aprendizaje por refuerzo (RL, por sus siglas en inglés) que optimiza directamente la veracidad de los LLMs. Específicamente, implementamos TruthRL utilizando GRPO con una recompensa ternaria simple pero efectiva que distingue respuestas correctas, alucinaciones y abstenciones. Incentiva a los modelos a reducir las alucinaciones no solo proporcionando respuestas correctas, sino también permitiendo la abstención cuando hay incertidumbre, mejorando así la veracidad. Experimentos extensos en cuatro benchmarks intensivos en conocimiento muestran que, en comparación con el RL convencional, TruthRL reduce significativamente las alucinaciones en un 28.9% y mejora la veracidad en un 21.1%, con ganancias consistentes en varios modelos base (por ejemplo, Qwen, Llama) tanto en configuraciones con recuperación de información como sin ella. Un estudio de ablación en profundidad demuestra que los métodos convencionales impulsados por la precisión, como el ajuste fino supervisado o el RL con una recompensa binaria, tienen dificultades para equilibrar la corrección factual y la incertidumbre. En contraste, nuestro TruthRL impulsado por la veracidad logra un rendimiento sólido tanto en precisión como en veracidad, destacando la importancia del diseño del objetivo de aprendizaje para desarrollar LLMs veraces.
English
While large language models (LLMs) have demonstrated strong performance on factoid question answering, they are still prone to hallucination and untruthful responses, particularly when tasks demand information outside their parametric knowledge. Indeed, truthfulness requires more than accuracy -- models must also recognize uncertainty and abstain when unsure to avoid hallucinations. This presents a fundamental challenge for existing methods: approaches that optimize for accuracy often amplify hallucinations, while those that encourage abstention can become overly conservative, sacrificing correct answers. Both extremes ultimately compromise truthfulness. In this work, we present TruthRL, a general reinforcement learning (RL) framework that directly optimizes the truthfulness of LLMs. Specifically, we implement TruthRL using GRPO with a simple yet effective ternary reward that distinguishes correct answers, hallucinations, and abstentions. It incentivizes models to reduce hallucinations not only by providing correct responses, but also by enabling abstention when uncertain, thereby improving truthfulness. Extensive experiments across four knowledge-intensive benchmarks show that, compared to vanilla RL, TruthRL significantly reduces hallucinations by 28.9% and improves truthfulness by 21.1%, with consistent gains across various backbone models (e.g., Qwen, Llama) under both retrieval and non-retrieval setups. In-depth ablation study demonstrates that vanilla accuracy-driven methods, such as supervised fine-tuning or RL with a binary reward, struggle to balance factual correctness and uncertainty. In contrast, our proposed truthfulness-driven TruthRL achieves strong performance in both accuracy and truthfulness, underscoring the importance of learning objective design for developing truthful LLMs.
PDF301October 1, 2025