ChatPaper.aiChatPaper

TruthRL: Incentivizando LLMs Verdadeiros por meio de Aprendizado por Reforço

TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

September 30, 2025
Autores: Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
cs.AI

Resumo

Embora os grandes modelos de linguagem (LLMs) tenham demonstrado um desempenho robusto em tarefas de questionamento factual, eles ainda são propensos a alucinações e respostas não verídicas, especialmente quando as tarefas exigem informações fora de seu conhecimento paramétrico. De fato, a veracidade exige mais do que precisão — os modelos também devem reconhecer a incerteza e se abster quando não têm certeza para evitar alucinações. Isso representa um desafio fundamental para os métodos existentes: abordagens que otimizam a precisão frequentemente amplificam as alucinações, enquanto aquelas que incentivam a abstenção podem se tornar excessivamente conservadoras, sacrificando respostas corretas. Ambos os extremos acabam comprometendo a veracidade. Neste trabalho, apresentamos o TruthRL, uma estrutura geral de aprendizado por reforço (RL) que otimiza diretamente a veracidade dos LLMs. Especificamente, implementamos o TruthRL usando GRPO com uma recompensa ternária simples, porém eficaz, que distingue respostas corretas, alucinações e abstenções. Ele incentiva os modelos a reduzir alucinações não apenas fornecendo respostas corretas, mas também permitindo a abstenção quando incertos, melhorando assim a veracidade. Experimentos extensos em quatro benchmarks intensivos em conhecimento mostram que, em comparação com o RL convencional, o TruthRL reduz significativamente as alucinações em 28,9% e melhora a veracidade em 21,1%, com ganhos consistentes em vários modelos base (por exemplo, Qwen, Llama) tanto em configurações com recuperação quanto sem recuperação. Um estudo de ablação detalhado demonstra que métodos convencionais orientados por precisão, como ajuste fino supervisionado ou RL com recompensa binária, lutam para equilibrar a correção factual e a incerteza. Em contraste, nosso TruthRL orientado por veracidade alcança um desempenho forte tanto em precisão quanto em veracidade, destacando a importância do design do objetivo de aprendizado para o desenvolvimento de LLMs verídicos.
English
While large language models (LLMs) have demonstrated strong performance on factoid question answering, they are still prone to hallucination and untruthful responses, particularly when tasks demand information outside their parametric knowledge. Indeed, truthfulness requires more than accuracy -- models must also recognize uncertainty and abstain when unsure to avoid hallucinations. This presents a fundamental challenge for existing methods: approaches that optimize for accuracy often amplify hallucinations, while those that encourage abstention can become overly conservative, sacrificing correct answers. Both extremes ultimately compromise truthfulness. In this work, we present TruthRL, a general reinforcement learning (RL) framework that directly optimizes the truthfulness of LLMs. Specifically, we implement TruthRL using GRPO with a simple yet effective ternary reward that distinguishes correct answers, hallucinations, and abstentions. It incentivizes models to reduce hallucinations not only by providing correct responses, but also by enabling abstention when uncertain, thereby improving truthfulness. Extensive experiments across four knowledge-intensive benchmarks show that, compared to vanilla RL, TruthRL significantly reduces hallucinations by 28.9% and improves truthfulness by 21.1%, with consistent gains across various backbone models (e.g., Qwen, Llama) under both retrieval and non-retrieval setups. In-depth ablation study demonstrates that vanilla accuracy-driven methods, such as supervised fine-tuning or RL with a binary reward, struggle to balance factual correctness and uncertainty. In contrast, our proposed truthfulness-driven TruthRL achieves strong performance in both accuracy and truthfulness, underscoring the importance of learning objective design for developing truthful LLMs.
PDF523October 1, 2025