Lernen, für Faktizität zu argumentieren
Learning to Reason for Factuality
August 7, 2025
papers.authors: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
cs.AI
papers.abstract
Reasoning Large Language Models (R-LLMs) haben komplexe Denkaufgaben erheblich vorangebracht, kämpfen jedoch oft mit der Faktentreue und erzeugen deutlich mehr Halluzinationen als ihre nicht-reasoning Pendants in langen Fakten-Benchmarks. Die Erweiterung von Online Reinforcement Learning (RL), einer Schlüsselkomponente in den jüngsten Fortschritten von R-LLMs, auf den Bereich der langen Fakten stellt jedoch mehrere einzigartige Herausforderungen dar, da zuverlässige Verifizierungsmethoden fehlen. Frühere Arbeiten haben automatische Faktentreue-Bewertungsrahmen wie FActScore genutzt, um Präferenzdaten im Offline-RL-Setting zu erstellen. Wir stellen jedoch fest, dass die direkte Nutzung solcher Methoden als Belohnung im Online-RL zu Belohnungshacking in mehrfacher Hinsicht führt, beispielsweise durch die Erzeugung weniger detaillierter oder relevanter Antworten. Wir schlagen eine neuartige Belohnungsfunktion vor, die gleichzeitig die faktische Präzision, das Detailniveau der Antwort und die Relevanz der Antwort berücksichtigt und Online-RL anwendet, um qualitativ hochwertiges faktisches Denken zu erlernen. Bewertet auf sechs langen Fakten-Benchmarks erreicht unser faktisches Denkmodell eine durchschnittliche Reduktion der Halluzinationsrate um 23,1 Prozentpunkte, eine Steigerung des Antwortdetailniveaus um 23 % und keine Verschlechterung der allgemeinen Hilfsbereitschaft der Antworten.
English
Reasoning Large Language Models (R-LLMs) have significantly advanced complex
reasoning tasks but often struggle with factuality, generating substantially
more hallucinations than their non-reasoning counterparts on long-form
factuality benchmarks. However, extending online Reinforcement Learning (RL), a
key component in recent R-LLM advancements, to the long-form factuality setting
poses several unique challenges due to the lack of reliable verification
methods. Previous work has utilized automatic factuality evaluation frameworks
such as FActScore to curate preference data in the offline RL setting, yet we
find that directly leveraging such methods as the reward in online RL leads to
reward hacking in multiple ways, such as producing less detailed or relevant
responses. We propose a novel reward function that simultaneously considers the
factual precision, response detail level, and answer relevance, and applies
online RL to learn high quality factual reasoning. Evaluated on six long-form
factuality benchmarks, our factual reasoning model achieves an average
reduction of 23.1 percentage points in hallucination rate, a 23% increase in
answer detail level, and no degradation in the overall response helpfulness.