ChatPaper.aiChatPaper

Leren redeneren voor feitelijkheid

Learning to Reason for Factuality

August 7, 2025
Auteurs: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
cs.AI

Samenvatting

Redenerende Large Language Models (R-LLMs) hebben aanzienlijke vooruitgang geboekt in complexe redeneertaken, maar worstelen vaak met feitelijkheid, waarbij ze aanzienlijk meer hallucinaties genereren dan hun niet-redenerende tegenhangers op benchmarks voor lange feitelijke teksten. Het uitbreiden van online Reinforcement Learning (RL), een belangrijk onderdeel in recente ontwikkelingen van R-LLMs, naar de context van lange feitelijke teksten brengt echter verschillende unieke uitdagingen met zich mee vanwege het gebrek aan betrouwbare verificatiemethoden. Eerder werk heeft automatische evaluatieframeworks voor feitelijkheid, zoals FActScore, gebruikt om voorkeursdata te verzamelen in de offline RL-setting, maar we constateren dat het direct inzetten van dergelijke methoden als beloning in online RL leidt tot beloningsmanipulatie op meerdere manieren, zoals het produceren van minder gedetailleerde of relevante antwoorden. We stellen een nieuwe beloningsfunctie voor die tegelijkertijd rekening houdt met feitelijke precisie, het detailniveau van het antwoord en de relevantie van het antwoord, en passen online RL toe om hoogwaardig feitelijk redeneren te leren. Geëvalueerd op zes benchmarks voor lange feitelijke teksten, behaalt ons feitelijke redeneermodel een gemiddelde vermindering van 23,1 procentpunten in het hallucinatiepercentage, een toename van 23% in het detailniveau van de antwoorden, en geen achteruitgang in de algehele nuttigheid van de antwoorden.
English
Reasoning Large Language Models (R-LLMs) have significantly advanced complex reasoning tasks but often struggle with factuality, generating substantially more hallucinations than their non-reasoning counterparts on long-form factuality benchmarks. However, extending online Reinforcement Learning (RL), a key component in recent R-LLM advancements, to the long-form factuality setting poses several unique challenges due to the lack of reliable verification methods. Previous work has utilized automatic factuality evaluation frameworks such as FActScore to curate preference data in the offline RL setting, yet we find that directly leveraging such methods as the reward in online RL leads to reward hacking in multiple ways, such as producing less detailed or relevant responses. We propose a novel reward function that simultaneously considers the factual precision, response detail level, and answer relevance, and applies online RL to learn high quality factual reasoning. Evaluated on six long-form factuality benchmarks, our factual reasoning model achieves an average reduction of 23.1 percentage points in hallucination rate, a 23% increase in answer detail level, and no degradation in the overall response helpfulness.
PDF32August 8, 2025