ChatPaper.aiChatPaper

TruthRL: Förderung wahrheitsgemäßer LLMs durch Reinforcement Learning

TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

September 30, 2025
papers.authors: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
cs.AI

papers.abstract

Während große Sprachmodelle (LLMs) bei der Beantwortung von faktischen Fragen starke Leistungen gezeigt haben, neigen sie dennoch zu Halluzinationen und unwahren Antworten, insbesondere wenn Aufgaben Informationen außerhalb ihres parametrischen Wissens erfordern. Wahrhaftigkeit erfordert tatsächlich mehr als Genauigkeit – Modelle müssen auch Unsicherheit erkennen und sich zurückhalten, wenn sie unsicher sind, um Halluzinationen zu vermeiden. Dies stellt eine grundlegende Herausforderung für bestehende Methoden dar: Ansätze, die auf Genauigkeit optimieren, verstärken oft Halluzinationen, während solche, die Zurückhaltung fördern, übermäßig konservativ werden können und korrekte Antworten opfern. Beide Extreme beeinträchtigen letztendlich die Wahrhaftigkeit. In dieser Arbeit präsentieren wir TruthRL, ein allgemeines Reinforcement-Learning (RL)-Framework, das die Wahrhaftigkeit von LLMs direkt optimiert. Konkret implementieren wir TruthRL mit GRPO und einer einfachen, aber effektiven ternären Belohnung, die korrekte Antworten, Halluzinationen und Zurückhaltungen unterscheidet. Es motiviert Modelle, Halluzinationen nicht nur durch die Bereitstellung korrekter Antworten zu reduzieren, sondern auch durch Zurückhaltung bei Unsicherheit, wodurch die Wahrhaftigkeit verbessert wird. Umfangreiche Experimente über vier wissensintensive Benchmarks zeigen, dass TruthRL im Vergleich zu herkömmlichem RL Halluzinationen um 28,9 % signifikant reduziert und die Wahrhaftigkeit um 21,1 % verbessert, mit konsistenten Gewinnen über verschiedene Basismodelle (z. B. Qwen, Llama) sowohl unter Retrieval- als auch Nicht-Retrieval-Setups. Eine detaillierte Ablationsstudie zeigt, dass herkömmliche, auf Genauigkeit ausgerichtete Methoden wie überwachtes Fein-Tuning oder RL mit einer binären Belohnung Schwierigkeiten haben, faktische Korrektheit und Unsicherheit auszubalancieren. Im Gegensatz dazu erreicht unser vorgeschlagenes, auf Wahrhaftigkeit ausgerichtetes TruthRL starke Leistungen sowohl in Bezug auf Genauigkeit als auch Wahrhaftigkeit, was die Bedeutung des Lernziel-Designs für die Entwicklung wahrhaftiger LLMs unterstreicht.
English
While large language models (LLMs) have demonstrated strong performance on factoid question answering, they are still prone to hallucination and untruthful responses, particularly when tasks demand information outside their parametric knowledge. Indeed, truthfulness requires more than accuracy -- models must also recognize uncertainty and abstain when unsure to avoid hallucinations. This presents a fundamental challenge for existing methods: approaches that optimize for accuracy often amplify hallucinations, while those that encourage abstention can become overly conservative, sacrificing correct answers. Both extremes ultimately compromise truthfulness. In this work, we present TruthRL, a general reinforcement learning (RL) framework that directly optimizes the truthfulness of LLMs. Specifically, we implement TruthRL using GRPO with a simple yet effective ternary reward that distinguishes correct answers, hallucinations, and abstentions. It incentivizes models to reduce hallucinations not only by providing correct responses, but also by enabling abstention when uncertain, thereby improving truthfulness. Extensive experiments across four knowledge-intensive benchmarks show that, compared to vanilla RL, TruthRL significantly reduces hallucinations by 28.9% and improves truthfulness by 21.1%, with consistent gains across various backbone models (e.g., Qwen, Llama) under both retrieval and non-retrieval setups. In-depth ablation study demonstrates that vanilla accuracy-driven methods, such as supervised fine-tuning or RL with a binary reward, struggle to balance factual correctness and uncertainty. In contrast, our proposed truthfulness-driven TruthRL achieves strong performance in both accuracy and truthfulness, underscoring the importance of learning objective design for developing truthful LLMs.
PDF301October 1, 2025