Aprendizaje del razonamiento para la veracidad

Resumen

Los Modelos de Lenguaje de Razonamiento (R-LLMs, por sus siglas en inglés) han avanzado significativamente en tareas de razonamiento complejo, pero a menudo enfrentan dificultades con la factualidad, generando sustancialmente más alucinaciones que sus contrapartes no orientadas al razonamiento en benchmarks de factualidad de formato largo. Sin embargo, extender el Aprendizaje por Refuerzo en línea (RL, por sus siglas en inglés), un componente clave en los avances recientes de los R-LLMs, al ámbito de la factualidad de formato largo presenta varios desafíos únicos debido a la falta de métodos de verificación confiables. Trabajos previos han utilizado marcos de evaluación automática de factualidad, como FActScore, para curar datos de preferencia en el entorno de RL fuera de línea. No obstante, hemos observado que el uso directo de estos métodos como recompensa en RL en línea conduce a la manipulación de recompensas de múltiples maneras, como la producción de respuestas menos detalladas o relevantes. Proponemos una nueva función de recompensa que considera simultáneamente la precisión factual, el nivel de detalle de la respuesta y la relevancia de la respuesta, y aplica RL en línea para aprender un razonamiento factual de alta calidad. Evaluado en seis benchmarks de factualidad de formato largo, nuestro modelo de razonamiento factual logra una reducción promedio de 23.1 puntos porcentuales en la tasa de alucinación, un aumento del 23% en el nivel de detalle de las respuestas y ninguna degradación en la utilidad general de las respuestas.

English

Reasoning Large Language Models (R-LLMs) have significantly advanced complex reasoning tasks but often struggle with factuality, generating substantially more hallucinations than their non-reasoning counterparts on long-form factuality benchmarks. However, extending online Reinforcement Learning (RL), a key component in recent R-LLM advancements, to the long-form factuality setting poses several unique challenges due to the lack of reliable verification methods. Previous work has utilized automatic factuality evaluation frameworks such as FActScore to curate preference data in the offline RL setting, yet we find that directly leveraging such methods as the reward in online RL leads to reward hacking in multiple ways, such as producing less detailed or relevant responses. We propose a novel reward function that simultaneously considers the factual precision, response detail level, and answer relevance, and applies online RL to learn high quality factual reasoning. Evaluated on six long-form factuality benchmarks, our factual reasoning model achieves an average reduction of 23.1 percentage points in hallucination rate, a 23% increase in answer detail level, and no degradation in the overall response helpfulness.

Aprendizaje del razonamiento para la veracidad

Learning to Reason for Factuality

Resumen

Support