TruthRL: Het stimuleren van eerlijke LLM's via Reinforcement Learning
TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning
September 30, 2025
Auteurs: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
cs.AI
Samenvatting
Hoewel grote taalmodellen (LLMs) sterke prestaties hebben laten zien op het gebied van feitelijke vraagbeantwoording, zijn ze nog steeds gevoelig voor hallucinaties en onwaarachtige antwoorden, vooral wanneer taken informatie vereisen die buiten hun parametrische kennis valt. Waarachtigheid vereist inderdaad meer dan alleen nauwkeurigheid — modellen moeten ook onzekerheid herkennen en zich onthouden van antwoorden wanneer ze niet zeker zijn, om hallucinaties te voorkomen. Dit vormt een fundamentele uitdaging voor bestaande methoden: benaderingen die optimaliseren voor nauwkeurigheid versterken vaak hallucinaties, terwijl methoden die onthouding aanmoedigen te conservatief kunnen worden, waardoor correcte antwoorden worden opgeofferd. Beide extremen ondermijnen uiteindelijk de waarachtigheid. In dit werk presenteren we TruthRL, een algemeen reinforcement learning (RL) raamwerk dat direct optimaliseert voor de waarachtigheid van LLMs. Specifiek implementeren we TruthRL met behulp van GRPO met een eenvoudig maar effectief ternair beloningssysteem dat correcte antwoorden, hallucinaties en onthoudingen onderscheidt. Het stimuleert modellen om hallucinaties te verminderen, niet alleen door correcte antwoorden te geven, maar ook door onthouding mogelijk te maken wanneer ze onzeker zijn, waardoor de waarachtigheid wordt verbeterd. Uitgebreide experimenten over vier kennisintensieve benchmarks laten zien dat, vergeleken met standaard RL, TruthRL hallucinaties significant vermindert met 28,9% en de waarachtigheid verbetert met 21,1%, met consistente verbeteringen over verschillende basismodellen (bijv. Qwen, Llama) onder zowel retrieval- als niet-retrieval setups. Een diepgaande ablatiestudie toont aan dat standaard nauwkeurigheidsgedreven methoden, zoals supervised fine-tuning of RL met een binair beloningssysteem, moeite hebben om feitelijke correctheid en onzekerheid in balans te brengen. Daarentegen bereikt onze voorgestelde waarachtigheidsgedreven TruthRL sterke prestaties in zowel nauwkeurigheid als waarachtigheid, wat het belang benadrukt van het ontwerp van leerdoelen voor het ontwikkelen van waarachtige LLMs.
English
While large language models (LLMs) have demonstrated strong performance on
factoid question answering, they are still prone to hallucination and
untruthful responses, particularly when tasks demand information outside their
parametric knowledge. Indeed, truthfulness requires more than accuracy --
models must also recognize uncertainty and abstain when unsure to avoid
hallucinations. This presents a fundamental challenge for existing methods:
approaches that optimize for accuracy often amplify hallucinations, while those
that encourage abstention can become overly conservative, sacrificing correct
answers. Both extremes ultimately compromise truthfulness. In this work, we
present TruthRL, a general reinforcement learning (RL) framework that directly
optimizes the truthfulness of LLMs. Specifically, we implement TruthRL using
GRPO with a simple yet effective ternary reward that distinguishes correct
answers, hallucinations, and abstentions. It incentivizes models to reduce
hallucinations not only by providing correct responses, but also by enabling
abstention when uncertain, thereby improving truthfulness. Extensive
experiments across four knowledge-intensive benchmarks show that, compared to
vanilla RL, TruthRL significantly reduces hallucinations by 28.9% and improves
truthfulness by 21.1%, with consistent gains across various backbone models
(e.g., Qwen, Llama) under both retrieval and non-retrieval setups. In-depth
ablation study demonstrates that vanilla accuracy-driven methods, such as
supervised fine-tuning or RL with a binary reward, struggle to balance factual
correctness and uncertainty. In contrast, our proposed truthfulness-driven
TruthRL achieves strong performance in both accuracy and truthfulness,
underscoring the importance of learning objective design for developing
truthful LLMs.