TruthRL : Incitation à la véracité des LLM via l'apprentissage par renforcement
TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning
September 30, 2025
papers.authors: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
cs.AI
papers.abstract
Bien que les grands modèles de langage (LLMs) aient démontré des performances solides en réponse à des questions factuelles, ils restent sujets à des hallucinations et à des réponses inexactes, en particulier lorsque les tâches nécessitent des informations en dehors de leur connaissance paramétrique. En effet, la véracité exige plus que la précision : les modèles doivent également reconnaître l'incertitude et s'abstenir lorsqu'ils ne sont pas sûrs pour éviter les hallucinations. Cela représente un défi fondamental pour les méthodes existantes : les approches qui optimisent la précision amplifient souvent les hallucinations, tandis que celles qui encouragent l'abstention peuvent devenir trop conservatrices, sacrifiant des réponses correctes. Les deux extrêmes compromettent finalement la véracité. Dans ce travail, nous présentons TruthRL, un cadre général d'apprentissage par renforcement (RL) qui optimise directement la véracité des LLMs. Plus précisément, nous implémentons TruthRL en utilisant GRPO avec une récompense ternaire simple mais efficace qui distingue les réponses correctes, les hallucinations et les abstentions. Cela incite les modèles à réduire les hallucinations non seulement en fournissant des réponses correctes, mais aussi en permettant l'abstention en cas d'incertitude, améliorant ainsi la véracité. Des expériences approfondies sur quatre benchmarks intensifs en connaissances montrent que, par rapport au RL classique, TruthRL réduit significativement les hallucinations de 28,9 % et améliore la véracité de 21,1 %, avec des gains constants sur divers modèles de base (par exemple, Qwen, Llama) dans des configurations avec et sans récupération d'informations. Une étude d'ablation approfondie démontre que les méthodes classiques axées sur la précision, comme le fine-tuning supervisé ou le RL avec une récompense binaire, peinent à équilibrer la justesse factuelle et l'incertitude. En revanche, notre TruthRL axé sur la véracité atteint des performances solides à la fois en précision et en véracité, soulignant l'importance de la conception des objectifs d'apprentissage pour développer des LLMs véridiques.
English
While large language models (LLMs) have demonstrated strong performance on
factoid question answering, they are still prone to hallucination and
untruthful responses, particularly when tasks demand information outside their
parametric knowledge. Indeed, truthfulness requires more than accuracy --
models must also recognize uncertainty and abstain when unsure to avoid
hallucinations. This presents a fundamental challenge for existing methods:
approaches that optimize for accuracy often amplify hallucinations, while those
that encourage abstention can become overly conservative, sacrificing correct
answers. Both extremes ultimately compromise truthfulness. In this work, we
present TruthRL, a general reinforcement learning (RL) framework that directly
optimizes the truthfulness of LLMs. Specifically, we implement TruthRL using
GRPO with a simple yet effective ternary reward that distinguishes correct
answers, hallucinations, and abstentions. It incentivizes models to reduce
hallucinations not only by providing correct responses, but also by enabling
abstention when uncertain, thereby improving truthfulness. Extensive
experiments across four knowledge-intensive benchmarks show that, compared to
vanilla RL, TruthRL significantly reduces hallucinations by 28.9% and improves
truthfulness by 21.1%, with consistent gains across various backbone models
(e.g., Qwen, Llama) under both retrieval and non-retrieval setups. In-depth
ablation study demonstrates that vanilla accuracy-driven methods, such as
supervised fine-tuning or RL with a binary reward, struggle to balance factual
correctness and uncertainty. In contrast, our proposed truthfulness-driven
TruthRL achieves strong performance in both accuracy and truthfulness,
underscoring the importance of learning objective design for developing
truthful LLMs.