ChatPaper.aiChatPaper

I modelli di ragionamento sono più inclini all'allucinazione?

Are Reasoning Models More Prone to Hallucination?

May 29, 2025
Autori: Zijun Yao, Yantao Liu, Yanxu Chen, Jianhui Chen, Junfeng Fang, Lei Hou, Juanzi Li, Tat-Seng Chua
cs.AI

Abstract

I recenti modelli di ragionamento su larga scala (LRM) dimostrano prestazioni potenti nella risoluzione di compiti complessi grazie alla capacità di ragionamento a catena di pensiero (CoT) estesa. Poiché questi LRM sono principalmente sviluppati attraverso post-addestramento su compiti di ragionamento formale, rimane incerto e dibattuto se generalizzino la capacità di ragionamento per aiutare a ridurre l'allucinazione nei compiti di ricerca di fatti. Ad esempio, DeepSeek-R1 riporta un aumento delle prestazioni su SimpleQA, un benchmark di ricerca di fatti, mentre OpenAI-o3 osserva un'allucinazione ancora più grave. Questa discrepanza solleva naturalmente la seguente domanda di ricerca: i modelli di ragionamento sono più inclini all'allucinazione? Questo articolo affronta la questione da tre prospettive. (1) In primo luogo, conduciamo una valutazione olistica dell'allucinazione nei LRM. La nostra analisi rivela che i LRM sottoposti a un'intera pipeline di post-addestramento con fine-tuning supervisionato (SFT) a freddo e rinforzo con ricompensa verificabile generalmente alleviano la loro allucinazione. Al contrario, sia la distillazione da sola che l'addestramento con rinforzo senza fine-tuning a freddo introducono allucinazioni più sfumate. (2) Per esplorare il motivo per cui diverse pipeline di post-addestramento alterano l'impatto sull'allucinazione nei LRM, conduciamo un'analisi comportamentale. Caratterizziamo due comportamenti cognitivi critici che influenzano direttamente la veridicità di un LRM: la Ripetizione di Errori, in cui i tentativi di ragionamento superficiale seguono ripetutamente la stessa logica sottostante errata, e la Discrepanza Pensiero-Risposta, in cui la risposta finale non corrisponde fedelmente al precedente processo CoT. (3) Inoltre, indaghiamo il meccanismo dietro l'allucinazione dei LRM dal punto di vista dell'incertezza del modello. Scopriamo che l'aumento dell'allucinazione nei LRM è solitamente associato al disallineamento tra l'incertezza del modello e l'accuratezza fattuale. Il nostro lavoro fornisce una comprensione iniziale dell'allucinazione nei LRM.
English
Recently evolved large reasoning models (LRMs) show powerful performance in solving complex tasks with long chain-of-thought (CoT) reasoning capability. As these LRMs are mostly developed by post-training on formal reasoning tasks, whether they generalize the reasoning capability to help reduce hallucination in fact-seeking tasks remains unclear and debated. For instance, DeepSeek-R1 reports increased performance on SimpleQA, a fact-seeking benchmark, while OpenAI-o3 observes even severer hallucination. This discrepancy naturally raises the following research question: Are reasoning models more prone to hallucination? This paper addresses the question from three perspectives. (1) We first conduct a holistic evaluation for the hallucination in LRMs. Our analysis reveals that LRMs undergo a full post-training pipeline with cold start supervised fine-tuning (SFT) and verifiable reward RL generally alleviate their hallucination. In contrast, both distillation alone and RL training without cold start fine-tuning introduce more nuanced hallucinations. (2) To explore why different post-training pipelines alters the impact on hallucination in LRMs, we conduct behavior analysis. We characterize two critical cognitive behaviors that directly affect the factuality of a LRM: Flaw Repetition, where the surface-level reasoning attempts repeatedly follow the same underlying flawed logic, and Think-Answer Mismatch, where the final answer fails to faithfully match the previous CoT process. (3) Further, we investigate the mechanism behind the hallucination of LRMs from the perspective of model uncertainty. We find that increased hallucination of LRMs is usually associated with the misalignment between model uncertainty and factual accuracy. Our work provides an initial understanding of the hallucination in LRMs.
PDF242May 30, 2025