Apprendimento del ragionamento per il rilevamento dell'intervallo di allucinazione

Abstract

I modelli linguistici di grandi dimensioni (LLM) spesso generano allucinazioni -- contenuti non supportati che minano l'affidabilità. Mentre la maggior parte dei lavori precedenti inquadra il rilevamento delle allucinazioni come un compito binario, molte applicazioni reali richiedono l'identificazione di segmenti allucinati, che è un processo decisionale a più fasi. Ciò solleva naturalmente la questione se il ragionamento esplicito possa aiutare nel complesso compito di rilevare i segmenti di allucinazione. Per rispondere a questa domanda, valutiamo prima modelli preaddestrati con e senza il ragionamento a catena di pensiero (CoT), e dimostriamo che il ragionamento CoT ha il potenziale di generare almeno una risposta corretta quando campionato più volte. Motivati da ciò, proponiamo RL4HS, un framework di apprendimento per rinforzo che incentiva il ragionamento con una funzione di ricompensa a livello di segmento. RL4HS si basa sull'ottimizzazione relativa delle politiche di gruppo e introduce l'ottimizzazione delle politiche consapevole della classe per mitigare il problema dello squilibrio delle ricompense. Gli esperimenti sul benchmark RAGTruth (riassunto, risposta a domande, dati-a-testo) mostrano che RL4HS supera i modelli di ragionamento preaddestrati e l'ottimizzazione supervisionata, dimostrando la necessità dell'apprendimento per rinforzo con ricompense a livello di segmento per rilevare i segmenti di allucinazione.

English

Large language models (LLMs) often generate hallucinations -- unsupported content that undermines reliability. While most prior works frame hallucination detection as a binary task, many real-world applications require identifying hallucinated spans, which is a multi-step decision making process. This naturally raises the question of whether explicit reasoning can help the complex task of detecting hallucination spans. To answer this question, we first evaluate pretrained models with and without Chain-of-Thought (CoT) reasoning, and show that CoT reasoning has the potential to generate at least one correct answer when sampled multiple times. Motivated by this, we propose RL4HS, a reinforcement learning framework that incentivizes reasoning with a span-level reward function. RL4HS builds on Group Relative Policy Optimization and introduces Class-Aware Policy Optimization to mitigate reward imbalance issue. Experiments on the RAGTruth benchmark (summarization, question answering, data-to-text) show that RL4HS surpasses pretrained reasoning models and supervised fine-tuning, demonstrating the necessity of reinforcement learning with span-level rewards for detecting hallucination spans.

Apprendimento del ragionamento per il rilevamento dell'intervallo di allucinazione

Learning to Reason for Hallucination Span Detection

Abstract

Support