Redeneren met Vertrouwen: Efficiënte Verificatie van LLM-Redeneerstappen via Onzekerheidskoppen
Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads
November 9, 2025
Auteurs: Jingwei Ni, Ekaterina Fadeeva, Tianyi Wu, Mubashara Akhtar, Jiaheng Zhang, Elliott Ash, Markus Leippold, Timothy Baldwin, See-Kiong Ng, Artem Shelmanov, Mrinmaya Sachan
cs.AI
Samenvatting
Het oplossen van complexe taken vereist doorgaans dat grote taalmodelen (LLM's) lange, meerstaps redeneerketens genereren. Eerder onderzoek heeft aangetoond dat het verifiëren van de correctheid van individuele redeneerstappen de prestaties en efficiëntie van LLM's bij dergelijke taken verder kan verbeteren en de interpreteerbaarheid van oplossingen kan vergroten. Bestaande verificatiebenaderingen, zoals Process Reward Models (PRM's), zijn echter ofwel rekenkundig kostbaar, beperkt tot specifieke domeinen, of vereisen grootschalige door mensen of modellen gegenereerde annotaties. Daarom stellen we een lichtgewicht alternatief voor voor verificatie op redeneerstapniveau, gebaseerd op data-gedreven onzekerheidsscores. We trainen transformer-gebaseerde onzekerheidskwantificeringsmodules (UHeads) die de interne toestanden van een bevroren LLM gebruiken om de onzekerheid van diens redeneerstappen tijdens generatie in te schatten. De aanpak is volledig automatisch: doel-labels worden gegenereerd door een ander, groter LLM (bijvoorbeeld DeepSeek R1) of op een zelfgesuperviseerde manier door het oorspronkelijke model zelf. UHeads zijn zowel effectief als lichtgewicht, met minder dan 10M parameters. In meerdere domeinen, waaronder wiskunde, planning en algemene kennisvragen, evenaren ze de prestaties van PRM's die tot 810x groter zijn, of overtreffen deze zelfs. Onze bevindingen suggereren dat de interne toestanden van LLM's hun onzekerheid coderen en kunnen dienen als betrouwbare signalen voor redeneerverificatie, wat een veelbelovende richting biedt naar schaalbare en generaliseerbare introspectieve LLM's.
English
Solving complex tasks usually requires LLMs to generate long multi-step
reasoning chains. Previous work has shown that verifying the correctness of
individual reasoning steps can further improve the performance and efficiency
of LLMs on such tasks and enhance solution interpretability. However, existing
verification approaches, such as Process Reward Models (PRMs), are either
computationally expensive, limited to specific domains, or require large-scale
human or model-generated annotations. Thus, we propose a lightweight
alternative for step-level reasoning verification based on data-driven
uncertainty scores. We train transformer-based uncertainty quantification heads
(UHeads) that use the internal states of a frozen LLM to estimate the
uncertainty of its reasoning steps during generation. The approach is fully
automatic: target labels are generated either by another larger LLM (e.g.,
DeepSeek R1) or in a self-supervised manner by the original model itself.
UHeads are both effective and lightweight, containing less than 10M parameters.
Across multiple domains, including mathematics, planning, and general knowledge
question answering, they match or even surpass the performance of PRMs that are
up to 810x larger. Our findings suggest that the internal states of LLMs encode
their uncertainty and can serve as reliable signals for reasoning verification,
offering a promising direction toward scalable and generalizable introspective
LLMs.