Обучение логическому рассуждению для обнаружения диапазонов галлюцинаций
Learning to Reason for Hallucination Span Detection
October 2, 2025
Авторы: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli
cs.AI
Аннотация
Крупные языковые модели (LLM) часто генерируют галлюцинации — неподтверждённый контент, который снижает надёжность. Хотя большинство предыдущих работ рассматривают обнаружение галлюцинаций как бинарную задачу, многие реальные приложения требуют идентификации галлюцинированных фрагментов, что представляет собой многоэтапный процесс принятия решений. Это естественным образом поднимает вопрос о том, может ли явное рассуждение помочь в сложной задаче обнаружения галлюцинированных фрагментов. Чтобы ответить на этот вопрос, мы сначала оцениваем предобученные модели с использованием и без использования рассуждений по цепочке мыслей (Chain-of-Thought, CoT) и показываем, что CoT-рассуждения имеют потенциал генерировать хотя бы один правильный ответ при многократной выборке. Вдохновлённые этим, мы предлагаем RL4HS — фреймворк обучения с подкреплением, который стимулирует рассуждения с помощью функции вознаграждения на уровне фрагментов. RL4HS основывается на оптимизации групповой относительной политики и вводит оптимизацию политики с учётом классов для смягчения проблемы дисбаланса вознаграждений. Эксперименты на бенчмарке RAGTruth (суммаризация, ответы на вопросы, данные-в-текст) показывают, что RL4HS превосходит предобученные модели с рассуждениями и тонкую настройку с учителем, демонстрируя необходимость обучения с подкреплением с вознаграждениями на уровне фрагментов для обнаружения галлюцинированных фрагментов.
English
Large language models (LLMs) often generate hallucinations -- unsupported
content that undermines reliability. While most prior works frame hallucination
detection as a binary task, many real-world applications require identifying
hallucinated spans, which is a multi-step decision making process. This
naturally raises the question of whether explicit reasoning can help the
complex task of detecting hallucination spans. To answer this question, we
first evaluate pretrained models with and without Chain-of-Thought (CoT)
reasoning, and show that CoT reasoning has the potential to generate at least
one correct answer when sampled multiple times. Motivated by this, we propose
RL4HS, a reinforcement learning framework that incentivizes reasoning with a
span-level reward function. RL4HS builds on Group Relative Policy Optimization
and introduces Class-Aware Policy Optimization to mitigate reward imbalance
issue. Experiments on the RAGTruth benchmark (summarization, question
answering, data-to-text) show that RL4HS surpasses pretrained reasoning models
and supervised fine-tuning, demonstrating the necessity of reinforcement
learning with span-level rewards for detecting hallucination spans.