ChatPaper.aiChatPaper

Imparare a Ragionare per la Veridicità

Learning to Reason for Factuality

August 7, 2025
Autori: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
cs.AI

Abstract

I modelli linguistici di ragionamento (R-LLM) hanno compiuto progressi significativi nei compiti di ragionamento complesso, ma spesso incontrano difficoltà con la veridicità, generando sostanzialmente più allucinazioni rispetto alle loro controparti non orientate al ragionamento nei benchmark di veridicità a lungo termine. Tuttavia, estendere l'apprendimento per rinforzo online (RL), un componente chiave nei recenti progressi degli R-LLM, al contesto della veridicità a lungo termine presenta diverse sfide uniche a causa della mancanza di metodi di verifica affidabili. Precedenti lavori hanno utilizzato framework di valutazione automatica della veridicità come FActScore per curare dati di preferenza nell'ambito dell'RL offline, ma abbiamo riscontrato che l'utilizzo diretto di tali metodi come ricompensa nell'RL online porta a manipolazioni della ricompensa in vari modi, come la produzione di risposte meno dettagliate o pertinenti. Proponiamo una nuova funzione di ricompensa che considera simultaneamente la precisione fattuale, il livello di dettaglio della risposta e la pertinenza della risposta, e applica l'RL online per apprendere un ragionamento fattuale di alta qualità. Valutato su sei benchmark di veridicità a lungo termine, il nostro modello di ragionamento fattuale ottiene una riduzione media del 23,1% nel tasso di allucinazioni, un aumento del 23% nel livello di dettaglio delle risposte e nessun degrado nell'utilità complessiva delle risposte.
English
Reasoning Large Language Models (R-LLMs) have significantly advanced complex reasoning tasks but often struggle with factuality, generating substantially more hallucinations than their non-reasoning counterparts on long-form factuality benchmarks. However, extending online Reinforcement Learning (RL), a key component in recent R-LLM advancements, to the long-form factuality setting poses several unique challenges due to the lack of reliable verification methods. Previous work has utilized automatic factuality evaluation frameworks such as FActScore to curate preference data in the offline RL setting, yet we find that directly leveraging such methods as the reward in online RL leads to reward hacking in multiple ways, such as producing less detailed or relevant responses. We propose a novel reward function that simultaneously considers the factual precision, response detail level, and answer relevance, and applies online RL to learn high quality factual reasoning. Evaluated on six long-form factuality benchmarks, our factual reasoning model achieves an average reduction of 23.1 percentage points in hallucination rate, a 23% increase in answer detail level, and no degradation in the overall response helpfulness.
PDF62August 8, 2025