Leren redeneren voor feitelijkheid
Learning to Reason for Factuality
August 7, 2025
Auteurs: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
cs.AI
Samenvatting
Redenerende Large Language Models (R-LLMs) hebben aanzienlijke vooruitgang geboekt in complexe redeneertaken, maar worstelen vaak met feitelijkheid, waarbij ze aanzienlijk meer hallucinaties genereren dan hun niet-redenerende tegenhangers op benchmarks voor lange feitelijke teksten. Het uitbreiden van online Reinforcement Learning (RL), een belangrijk onderdeel in recente ontwikkelingen van R-LLMs, naar de context van lange feitelijke teksten brengt echter verschillende unieke uitdagingen met zich mee vanwege het gebrek aan betrouwbare verificatiemethoden. Eerder werk heeft automatische evaluatieframeworks voor feitelijkheid, zoals FActScore, gebruikt om voorkeursdata te verzamelen in de offline RL-setting, maar we constateren dat het direct inzetten van dergelijke methoden als beloning in online RL leidt tot beloningsmanipulatie op meerdere manieren, zoals het produceren van minder gedetailleerde of relevante antwoorden. We stellen een nieuwe beloningsfunctie voor die tegelijkertijd rekening houdt met feitelijke precisie, het detailniveau van het antwoord en de relevantie van het antwoord, en passen online RL toe om hoogwaardig feitelijk redeneren te leren. Geëvalueerd op zes benchmarks voor lange feitelijke teksten, behaalt ons feitelijke redeneermodel een gemiddelde vermindering van 23,1 procentpunten in het hallucinatiepercentage, een toename van 23% in het detailniveau van de antwoorden, en geen achteruitgang in de algehele nuttigheid van de antwoorden.
English
Reasoning Large Language Models (R-LLMs) have significantly advanced complex
reasoning tasks but often struggle with factuality, generating substantially
more hallucinations than their non-reasoning counterparts on long-form
factuality benchmarks. However, extending online Reinforcement Learning (RL), a
key component in recent R-LLM advancements, to the long-form factuality setting
poses several unique challenges due to the lack of reliable verification
methods. Previous work has utilized automatic factuality evaluation frameworks
such as FActScore to curate preference data in the offline RL setting, yet we
find that directly leveraging such methods as the reward in online RL leads to
reward hacking in multiple ways, such as producing less detailed or relevant
responses. We propose a novel reward function that simultaneously considers the
factual precision, response detail level, and answer relevance, and applies
online RL to learn high quality factual reasoning. Evaluated on six long-form
factuality benchmarks, our factual reasoning model achieves an average
reduction of 23.1 percentage points in hallucination rate, a 23% increase in
answer detail level, and no degradation in the overall response helpfulness.