Sind Reasoning-Modelle anfälliger für Halluzinationen?
Are Reasoning Models More Prone to Hallucination?
May 29, 2025
Autoren: Zijun Yao, Yantao Liu, Yanxu Chen, Jianhui Chen, Junfeng Fang, Lei Hou, Juanzi Li, Tat-Seng Chua
cs.AI
Zusammenfassung
Kürzlich entwickelte große Reasoning-Modelle (LRMs) zeigen eine beeindruckende Leistung bei der Lösung komplexer Aufgaben mit langen Chain-of-Thought (CoT)-Reasoning-Fähigkeiten. Da diese LRMs meist durch Post-Training auf formalen Reasoning-Aufgaben entwickelt werden, bleibt unklar und umstritten, ob sie ihre Reasoning-Fähigkeit verallgemeinern können, um Halluzinationen bei faktenbasierten Aufgaben zu reduzieren. Beispielsweise berichtet DeepSeek-R1 über eine verbesserte Leistung bei SimpleQA, einem Benchmark für faktenbasierte Aufgaben, während OpenAI-o3 sogar stärkere Halluzinationen feststellt. Diese Diskrepanz wirft folgende Forschungsfrage auf: Sind Reasoning-Modelle anfälliger für Halluzinationen? Dieses Papier geht dieser Frage aus drei Perspektiven nach. (1) Zunächst führen wir eine ganzheitliche Bewertung der Halluzinationen in LRMs durch. Unsere Analyse zeigt, dass LRMs, die einen vollständigen Post-Training-Pipeline mit Cold-Start-Supervised-Fine-Tuning (SFT) und verifizierbarem Belohnungs-RL durchlaufen, ihre Halluzinationen allgemein verringern. Im Gegensatz dazu führen sowohl die alleinige Destillation als auch RL-Training ohne Cold-Start-Fine-Tuning zu subtileren Halluzinationen. (2) Um zu untersuchen, warum unterschiedliche Post-Training-Pipelines die Auswirkungen auf Halluzinationen in LRMs verändern, führen wir eine Verhaltensanalyse durch. Wir charakterisieren zwei kritische kognitive Verhaltensweisen, die die Faktentreue eines LRMs direkt beeinflussen: Fehlerwiederholung, bei der oberflächliche Reasoning-Versuche wiederholt der gleichen zugrunde liegenden fehlerhaften Logik folgen, und Denken-Antwort-Diskrepanz, bei der die endgültige Antwort nicht treu mit dem vorherigen CoT-Prozess übereinstimmt. (3) Darüber hinaus untersuchen wir den Mechanismus hinter den Halluzinationen von LRMs aus der Perspektive der Modellunsicherheit. Wir stellen fest, dass eine erhöhte Halluzination bei LRMs meist mit der Fehlausrichtung zwischen Modellunsicherheit und faktischer Genauigkeit verbunden ist. Unsere Arbeit bietet ein erstes Verständnis der Halluzinationen in LRMs.
English
Recently evolved large reasoning models (LRMs) show powerful performance in
solving complex tasks with long chain-of-thought (CoT) reasoning capability. As
these LRMs are mostly developed by post-training on formal reasoning tasks,
whether they generalize the reasoning capability to help reduce hallucination
in fact-seeking tasks remains unclear and debated. For instance, DeepSeek-R1
reports increased performance on SimpleQA, a fact-seeking benchmark, while
OpenAI-o3 observes even severer hallucination. This discrepancy naturally
raises the following research question: Are reasoning models more prone to
hallucination? This paper addresses the question from three perspectives. (1)
We first conduct a holistic evaluation for the hallucination in LRMs. Our
analysis reveals that LRMs undergo a full post-training pipeline with cold
start supervised fine-tuning (SFT) and verifiable reward RL generally alleviate
their hallucination. In contrast, both distillation alone and RL training
without cold start fine-tuning introduce more nuanced hallucinations. (2) To
explore why different post-training pipelines alters the impact on
hallucination in LRMs, we conduct behavior analysis. We characterize two
critical cognitive behaviors that directly affect the factuality of a LRM: Flaw
Repetition, where the surface-level reasoning attempts repeatedly follow the
same underlying flawed logic, and Think-Answer Mismatch, where the final answer
fails to faithfully match the previous CoT process. (3) Further, we investigate
the mechanism behind the hallucination of LRMs from the perspective of model
uncertainty. We find that increased hallucination of LRMs is usually associated
with the misalignment between model uncertainty and factual accuracy. Our work
provides an initial understanding of the hallucination in LRMs.Summary
AI-Generated Summary