TruthRL: Стимулирование правдивости языковых моделей с помощью обучения с подкреплением
TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning
September 30, 2025
Авторы: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
cs.AI
Аннотация
Хотя крупные языковые модели (LLMs) демонстрируют высокую производительность в задачах ответов на фактологические вопросы, они всё ещё склонны к галлюцинациям и недостоверным ответам, особенно когда задачи требуют информации, выходящей за пределы их параметрических знаний. Действительно, достоверность требует большего, чем просто точность — модели также должны распознавать неопределённость и воздерживаться от ответов, когда они неуверены, чтобы избежать галлюцинаций. Это представляет собой фундаментальную проблему для существующих методов: подходы, оптимизирующие точность, часто усиливают галлюцинации, в то время как методы, поощряющие воздержание, могут становиться излишне консервативными, жертвуя правильными ответами. Оба крайних случая в конечном итоге подрывают достоверность. В данной работе мы представляем TruthRL, общий фреймворк обучения с подкреплением (RL), который напрямую оптимизирует достоверность LLMs. В частности, мы реализуем TruthRL с использованием GRPO с простым, но эффективным троичным вознаграждением, которое различает правильные ответы, галлюцинации и воздержания. Он стимулирует модели уменьшать галлюцинации не только за счёт предоставления правильных ответов, но и за счёт возможности воздерживаться в случае неопределённости, тем самым повышая достоверность. Масштабные эксперименты на четырёх тестовых наборах, требующих глубоких знаний, показывают, что по сравнению с базовым RL, TruthRL значительно сокращает галлюцинации на 28,9% и повышает достоверность на 21,1%, с устойчивыми улучшениями для различных базовых моделей (например, Qwen, Llama) как в условиях с использованием поиска, так и без него. Детальное исследование демонстрирует, что базовые методы, ориентированные на точность, такие как тонкая настройка с учителем или RL с бинарным вознаграждением, испытывают трудности в балансировании фактической точности и неопределённости. В отличие от них, наш предложенный TruthRL, ориентированный на достоверность, достигает высокой производительности как в точности, так и в достоверности, подчёркивая важность проектирования целей обучения для разработки достоверных LLMs.
English
While large language models (LLMs) have demonstrated strong performance on
factoid question answering, they are still prone to hallucination and
untruthful responses, particularly when tasks demand information outside their
parametric knowledge. Indeed, truthfulness requires more than accuracy --
models must also recognize uncertainty and abstain when unsure to avoid
hallucinations. This presents a fundamental challenge for existing methods:
approaches that optimize for accuracy often amplify hallucinations, while those
that encourage abstention can become overly conservative, sacrificing correct
answers. Both extremes ultimately compromise truthfulness. In this work, we
present TruthRL, a general reinforcement learning (RL) framework that directly
optimizes the truthfulness of LLMs. Specifically, we implement TruthRL using
GRPO with a simple yet effective ternary reward that distinguishes correct
answers, hallucinations, and abstentions. It incentivizes models to reduce
hallucinations not only by providing correct responses, but also by enabling
abstention when uncertain, thereby improving truthfulness. Extensive
experiments across four knowledge-intensive benchmarks show that, compared to
vanilla RL, TruthRL significantly reduces hallucinations by 28.9% and improves
truthfulness by 21.1%, with consistent gains across various backbone models
(e.g., Qwen, Llama) under both retrieval and non-retrieval setups. In-depth
ablation study demonstrates that vanilla accuracy-driven methods, such as
supervised fine-tuning or RL with a binary reward, struggle to balance factual
correctness and uncertainty. In contrast, our proposed truthfulness-driven
TruthRL achieves strong performance in both accuracy and truthfulness,
underscoring the importance of learning objective design for developing
truthful LLMs.