Apprentissage du raisonnement pour la factualité
Learning to Reason for Factuality
August 7, 2025
papers.authors: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
cs.AI
papers.abstract
Les modèles de langage à raisonnement (R-LLMs) ont considérablement progressé dans les tâches de raisonnement complexe, mais ils peinent souvent à maintenir la factualité, générant significativement plus d'hallucinations que leurs homologues non raisonnés sur les benchmarks de factualité à long format. Cependant, l'extension de l'apprentissage par renforcement en ligne (RL), un composant clé des récents progrès des R-LLMs, au contexte de factualité à long format présente plusieurs défis uniques en raison de l'absence de méthodes de vérification fiables. Les travaux précédents ont utilisé des cadres d'évaluation automatique de la factualité, tels que FActScore, pour constituer des données de préférence dans le cadre du RL hors ligne. Cependant, nous constatons que l'utilisation directe de ces méthodes comme récompense dans le RL en ligne entraîne un détournement de récompense de plusieurs manières, comme la production de réponses moins détaillées ou pertinentes. Nous proposons une nouvelle fonction de récompense qui prend simultanément en compte la précision factuelle, le niveau de détail de la réponse et la pertinence de la réponse, et appliquons le RL en ligne pour apprendre un raisonnement factuel de haute qualité. Évalué sur six benchmarks de factualité à long format, notre modèle de raisonnement factuel obtient une réduction moyenne de 23,1 points de pourcentage du taux d'hallucination, une augmentation de 23 % du niveau de détail des réponses, et aucune dégradation de l'utilité globale des réponses.
English
Reasoning Large Language Models (R-LLMs) have significantly advanced complex
reasoning tasks but often struggle with factuality, generating substantially
more hallucinations than their non-reasoning counterparts on long-form
factuality benchmarks. However, extending online Reinforcement Learning (RL), a
key component in recent R-LLM advancements, to the long-form factuality setting
poses several unique challenges due to the lack of reliable verification
methods. Previous work has utilized automatic factuality evaluation frameworks
such as FActScore to curate preference data in the offline RL setting, yet we
find that directly leveraging such methods as the reward in online RL leads to
reward hacking in multiple ways, such as producing less detailed or relevant
responses. We propose a novel reward function that simultaneously considers the
factual precision, response detail level, and answer relevance, and applies
online RL to learn high quality factual reasoning. Evaluated on six long-form
factuality benchmarks, our factual reasoning model achieves an average
reduction of 23.1 percentage points in hallucination rate, a 23% increase in
answer detail level, and no degradation in the overall response helpfulness.