ChatPaper.aiChatPaper

確信をもって推論する:不確実性ヘッドによる大規模言語モデルの推論ステップの効率的検証

Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads

November 9, 2025
著者: Jingwei Ni, Ekaterina Fadeeva, Tianyi Wu, Mubashara Akhtar, Jiaheng Zhang, Elliott Ash, Markus Leippold, Timothy Baldwin, See-Kiong Ng, Artem Shelmanov, Mrinmaya Sachan
cs.AI

要旨

複雑な課題を解決するには、通常、大規模言語モデル(LLM)が長い多段階の推論チェーンを生成する必要がある。従来の研究では、個々の推論ステップの正しさを検証することが、このような課題におけるLLMの性能と効率をさらに向上させ、解の解釈可能性を高めることが示されている。しかし、Process Reward Models(PRM)のような既存の検証手法は、計算コストが高い、特定領域に限定される、あるいは大規模な人手またはモデル生成による注釈を必要とするなどの課題がある。そこで本研究では、データ駆動型の不確実性スコアに基づく、軽量なステップ単位推論検証の代替手法を提案する。我々は、凍結されたLLMの内部状態を利用して、生成中の推論ステップの不確実性を推定するトランスフォーマーベースの不確実性定量化ヘッド(UHead)を訓練する。本手法は完全に自動的であり、ターゲットラベルは別のより大規模なLLM(例:DeepSeek R1)によって生成されるか、あるいは元のモデル自身による自己教師あり方式で生成される。UHeadは有効でありながらも軽量で、1,000万パラメータ未満である。数学、計画立案、一般知識質問応答を含む複数領域において、最大810倍大きいPRMの性能に匹敵し、場合によっては凌駕する。我々の発見は、LLMの内部状態がその不確実性を符号化しており、推論検証の信頼できる信号として機能しうることを示唆しており、スケーラブルで一般化可能な内省的LLMへの有望な方向性を提供する。
English
Solving complex tasks usually requires LLMs to generate long multi-step reasoning chains. Previous work has shown that verifying the correctness of individual reasoning steps can further improve the performance and efficiency of LLMs on such tasks and enhance solution interpretability. However, existing verification approaches, such as Process Reward Models (PRMs), are either computationally expensive, limited to specific domains, or require large-scale human or model-generated annotations. Thus, we propose a lightweight alternative for step-level reasoning verification based on data-driven uncertainty scores. We train transformer-based uncertainty quantification heads (UHeads) that use the internal states of a frozen LLM to estimate the uncertainty of its reasoning steps during generation. The approach is fully automatic: target labels are generated either by another larger LLM (e.g., DeepSeek R1) or in a self-supervised manner by the original model itself. UHeads are both effective and lightweight, containing less than 10M parameters. Across multiple domains, including mathematics, planning, and general knowledge question answering, they match or even surpass the performance of PRMs that are up to 810x larger. Our findings suggest that the internal states of LLMs encode their uncertainty and can serve as reliable signals for reasoning verification, offering a promising direction toward scalable and generalizable introspective LLMs.
PDF172December 2, 2025