ChatPaper.aiChatPaper

Aprendendo a Raciocinar para Veracidade

Learning to Reason for Factuality

August 7, 2025
Autores: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
cs.AI

Resumo

Modelos de Linguagem de Grande Escala para Raciocínio (R-LLMs) avançaram significativamente em tarefas complexas de raciocínio, mas frequentemente enfrentam dificuldades com a factualidade, gerando substancialmente mais alucinações do que suas contrapartes não voltadas para raciocínio em benchmarks de factualidade de longo formato. No entanto, estender o Aprendizado por Reforço Online (RL), um componente-chave nos recentes avanços dos R-LLMs, para o cenário de factualidade de longo formato apresenta vários desafios únicos devido à falta de métodos confiáveis de verificação. Trabalhos anteriores utilizaram frameworks automáticos de avaliação de factualidade, como o FActScore, para curar dados de preferência no cenário de RL offline, mas descobrimos que o uso direto desses métodos como recompensa no RL online leva a manipulação de recompensas de várias maneiras, como a produção de respostas menos detalhadas ou relevantes. Propomos uma nova função de recompensa que considera simultaneamente a precisão factual, o nível de detalhe da resposta e a relevância da resposta, e aplica RL online para aprender raciocínio factual de alta qualidade. Avaliado em seis benchmarks de factualidade de longo formato, nosso modelo de raciocínio factual alcança uma redução média de 23,1 pontos percentuais na taxa de alucinação, um aumento de 23% no nível de detalhe das respostas e nenhuma degradação na utilidade geral das respostas.
English
Reasoning Large Language Models (R-LLMs) have significantly advanced complex reasoning tasks but often struggle with factuality, generating substantially more hallucinations than their non-reasoning counterparts on long-form factuality benchmarks. However, extending online Reinforcement Learning (RL), a key component in recent R-LLM advancements, to the long-form factuality setting poses several unique challenges due to the lack of reliable verification methods. Previous work has utilized automatic factuality evaluation frameworks such as FActScore to curate preference data in the offline RL setting, yet we find that directly leveraging such methods as the reward in online RL leads to reward hacking in multiple ways, such as producing less detailed or relevant responses. We propose a novel reward function that simultaneously considers the factual precision, response detail level, and answer relevance, and applies online RL to learn high quality factual reasoning. Evaluated on six long-form factuality benchmarks, our factual reasoning model achieves an average reduction of 23.1 percentage points in hallucination rate, a 23% increase in answer detail level, and no degradation in the overall response helpfulness.
PDF62August 8, 2025