Apprendimento del ragionamento per il rilevamento dell'intervallo di allucinazione
Learning to Reason for Hallucination Span Detection
October 2, 2025
Autori: Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) spesso generano allucinazioni -- contenuti non supportati che minano l'affidabilità. Mentre la maggior parte dei lavori precedenti inquadra il rilevamento delle allucinazioni come un compito binario, molte applicazioni reali richiedono l'identificazione di segmenti allucinati, che è un processo decisionale a più fasi. Ciò solleva naturalmente la questione se il ragionamento esplicito possa aiutare nel complesso compito di rilevare i segmenti di allucinazione. Per rispondere a questa domanda, valutiamo prima modelli preaddestrati con e senza il ragionamento a catena di pensiero (CoT), e dimostriamo che il ragionamento CoT ha il potenziale di generare almeno una risposta corretta quando campionato più volte. Motivati da ciò, proponiamo RL4HS, un framework di apprendimento per rinforzo che incentiva il ragionamento con una funzione di ricompensa a livello di segmento. RL4HS si basa sull'ottimizzazione relativa delle politiche di gruppo e introduce l'ottimizzazione delle politiche consapevole della classe per mitigare il problema dello squilibrio delle ricompense. Gli esperimenti sul benchmark RAGTruth (riassunto, risposta a domande, dati-a-testo) mostrano che RL4HS supera i modelli di ragionamento preaddestrati e l'ottimizzazione supervisionata, dimostrando la necessità dell'apprendimento per rinforzo con ricompense a livello di segmento per rilevare i segmenti di allucinazione.
English
Large language models (LLMs) often generate hallucinations -- unsupported
content that undermines reliability. While most prior works frame hallucination
detection as a binary task, many real-world applications require identifying
hallucinated spans, which is a multi-step decision making process. This
naturally raises the question of whether explicit reasoning can help the
complex task of detecting hallucination spans. To answer this question, we
first evaluate pretrained models with and without Chain-of-Thought (CoT)
reasoning, and show that CoT reasoning has the potential to generate at least
one correct answer when sampled multiple times. Motivated by this, we propose
RL4HS, a reinforcement learning framework that incentivizes reasoning with a
span-level reward function. RL4HS builds on Group Relative Policy Optimization
and introduces Class-Aware Policy Optimization to mitigate reward imbalance
issue. Experiments on the RAGTruth benchmark (summarization, question
answering, data-to-text) show that RL4HS surpasses pretrained reasoning models
and supervised fine-tuning, demonstrating the necessity of reinforcement
learning with span-level rewards for detecting hallucination spans.