TruthRL: 강화 학습을 통해 진실된 LLM을 유도하는 방법
TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning
September 30, 2025
저자: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
cs.AI
초록
대규모 언어 모델(LLM)은 사실 기반 질문 응답에서 강력한 성능을 보여주지만, 특히 모델의 파라미터적 지식을 벗어나는 정보를 요구하는 작업에서 환각(hallucination)과 부정확한 응답을 생성하는 경향이 있습니다. 사실, 진실성(truthfulness)은 정확성(accuracy) 이상을 요구합니다. 모델은 불확실성을 인지하고 확신이 없을 때는 응답을 자제함으로써 환각을 피해야 합니다. 이는 기존 방법론에 근본적인 도전을 제기합니다: 정확성을 최적화하는 접근법은 환각을 증폭시키는 반면, 응답 자제를 장려하는 방법은 지나치게 보수적이 되어 정답을 놓칠 수 있습니다. 두 극단 모두 궁극적으로 진실성을 훼손합니다. 본 연구에서는 LLM의 진실성을 직접 최적화하는 일반적인 강화 학습(RL) 프레임워크인 TruthRL을 제안합니다. 구체적으로, 우리는 GRPO를 사용하여 정답, 환각, 응답 자제를 구분하는 간단하지만 효과적인 삼항 보상 체계로 TruthRL을 구현했습니다. 이는 모델이 정확한 응답을 제공할 뿐만 아니라 불확실할 때 응답을 자제하도록 유도함으로써 환각을 줄이고 진실성을 향상시킵니다. 네 가지 지식 집약적 벤치마크에서 진행된 광범위한 실험 결과, TruthRL은 일반 RL 대비 환각을 28.9% 감소시키고 진실성을 21.1% 향상시켰으며, 다양한 백본 모델(Qwen, Llama 등)에서 검색 및 비검색 설정 모두에서 일관된 성능 향상을 보였습니다. 심층적인 절제 연구(ablation study)는 지도 학습 미세 조정(supervised fine-tuning)이나 이진 보상을 사용한 RL과 같은 정확성 중심의 방법론이 사실적 정확성과 불확실성의 균형을 맞추는 데 어려움을 겪는 반면, 우리가 제안한 진실성 중심의 TruthRL은 정확성과 진실성 모두에서 강력한 성능을 달성함을 보여줍니다. 이는 진실한 LLM 개발을 위한 학습 목표 설계의 중요성을 강조합니다.
English
While large language models (LLMs) have demonstrated strong performance on
factoid question answering, they are still prone to hallucination and
untruthful responses, particularly when tasks demand information outside their
parametric knowledge. Indeed, truthfulness requires more than accuracy --
models must also recognize uncertainty and abstain when unsure to avoid
hallucinations. This presents a fundamental challenge for existing methods:
approaches that optimize for accuracy often amplify hallucinations, while those
that encourage abstention can become overly conservative, sacrificing correct
answers. Both extremes ultimately compromise truthfulness. In this work, we
present TruthRL, a general reinforcement learning (RL) framework that directly
optimizes the truthfulness of LLMs. Specifically, we implement TruthRL using
GRPO with a simple yet effective ternary reward that distinguishes correct
answers, hallucinations, and abstentions. It incentivizes models to reduce
hallucinations not only by providing correct responses, but also by enabling
abstention when uncertain, thereby improving truthfulness. Extensive
experiments across four knowledge-intensive benchmarks show that, compared to
vanilla RL, TruthRL significantly reduces hallucinations by 28.9% and improves
truthfulness by 21.1%, with consistent gains across various backbone models
(e.g., Qwen, Llama) under both retrieval and non-retrieval setups. In-depth
ablation study demonstrates that vanilla accuracy-driven methods, such as
supervised fine-tuning or RL with a binary reward, struggle to balance factual
correctness and uncertainty. In contrast, our proposed truthfulness-driven
TruthRL achieves strong performance in both accuracy and truthfulness,
underscoring the importance of learning objective design for developing
truthful LLMs.