Обучение рассуждению для установления достоверности
Learning to Reason for Factuality
August 7, 2025
Авторы: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas Oğuz, Rulin Shao, Gargi Ghosh, Jason Weston, Wen-tau Yih
cs.AI
Аннотация
Модели языкового мышления с расширенными возможностями рассуждения (R-LLMs) значительно продвинулись в выполнении сложных задач, связанных с рассуждениями, но часто сталкиваются с проблемами фактической точности, генерируя значительно больше галлюцинаций по сравнению с их аналогами, не ориентированными на рассуждения, в тестах на длинную форму фактической точности. Однако применение онлайн-обучения с подкреплением (RL), ключевого компонента в последних достижениях R-LLMs, к задачам длинной формы фактической точности сталкивается с рядом уникальных проблем из-за отсутствия надежных методов проверки. Предыдущие работы использовали автоматизированные системы оценки фактической точности, такие как FActScore, для создания данных предпочтений в условиях офлайн RL, однако мы обнаружили, что прямое использование таких методов в качестве вознаграждения в онлайн RL приводит к "взлому вознаграждения" различными способами, например, к генерации менее детализированных или релевантных ответов. Мы предлагаем новую функцию вознаграждения, которая одновременно учитывает фактическую точность, уровень детализации ответа и релевантность ответа, и применяем онлайн RL для обучения высококачественному фактическому рассуждению. Оцененная на шести тестах длинной формы фактической точности, наша модель фактического рассуждения демонстрирует среднее снижение уровня галлюцинаций на 23,1 процентных пункта, увеличение уровня детализации ответа на 23% и отсутствие ухудшения общей полезности ответов.
English
Reasoning Large Language Models (R-LLMs) have significantly advanced complex
reasoning tasks but often struggle with factuality, generating substantially
more hallucinations than their non-reasoning counterparts on long-form
factuality benchmarks. However, extending online Reinforcement Learning (RL), a
key component in recent R-LLM advancements, to the long-form factuality setting
poses several unique challenges due to the lack of reliable verification
methods. Previous work has utilized automatic factuality evaluation frameworks
such as FActScore to curate preference data in the offline RL setting, yet we
find that directly leveraging such methods as the reward in online RL leads to
reward hacking in multiple ways, such as producing less detailed or relevant
responses. We propose a novel reward function that simultaneously considers the
factual precision, response detail level, and answer relevance, and applies
online RL to learn high quality factual reasoning. Evaluated on six long-form
factuality benchmarks, our factual reasoning model achieves an average
reduction of 23.1 percentage points in hallucination rate, a 23% increase in
answer detail level, and no degradation in the overall response helpfulness.