Aprendizaje del razonamiento para la veracidad
Learning to Reason for Factuality
August 7, 2025
Autores: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
cs.AI
Resumen
Los Modelos de Lenguaje de Razonamiento (R-LLMs, por sus siglas en inglés) han avanzado significativamente en tareas de razonamiento complejo, pero a menudo enfrentan dificultades con la factualidad, generando sustancialmente más alucinaciones que sus contrapartes no orientadas al razonamiento en benchmarks de factualidad de formato largo. Sin embargo, extender el Aprendizaje por Refuerzo en línea (RL, por sus siglas en inglés), un componente clave en los avances recientes de los R-LLMs, al ámbito de la factualidad de formato largo presenta varios desafíos únicos debido a la falta de métodos de verificación confiables. Trabajos previos han utilizado marcos de evaluación automática de factualidad, como FActScore, para curar datos de preferencia en el entorno de RL fuera de línea. No obstante, hemos observado que el uso directo de estos métodos como recompensa en RL en línea conduce a la manipulación de recompensas de múltiples maneras, como la producción de respuestas menos detalladas o relevantes. Proponemos una nueva función de recompensa que considera simultáneamente la precisión factual, el nivel de detalle de la respuesta y la relevancia de la respuesta, y aplica RL en línea para aprender un razonamiento factual de alta calidad. Evaluado en seis benchmarks de factualidad de formato largo, nuestro modelo de razonamiento factual logra una reducción promedio de 23.1 puntos porcentuales en la tasa de alucinación, un aumento del 23% en el nivel de detalle de las respuestas y ninguna degradación en la utilidad general de las respuestas.
English
Reasoning Large Language Models (R-LLMs) have significantly advanced complex
reasoning tasks but often struggle with factuality, generating substantially
more hallucinations than their non-reasoning counterparts on long-form
factuality benchmarks. However, extending online Reinforcement Learning (RL), a
key component in recent R-LLM advancements, to the long-form factuality setting
poses several unique challenges due to the lack of reliable verification
methods. Previous work has utilized automatic factuality evaluation frameworks
such as FActScore to curate preference data in the offline RL setting, yet we
find that directly leveraging such methods as the reward in online RL leads to
reward hacking in multiple ways, such as producing less detailed or relevant
responses. We propose a novel reward function that simultaneously considers the
factual precision, response detail level, and answer relevance, and applies
online RL to learn high quality factual reasoning. Evaluated on six long-form
factuality benchmarks, our factual reasoning model achieves an average
reduction of 23.1 percentage points in hallucination rate, a 23% increase in
answer detail level, and no degradation in the overall response helpfulness.