Diep Denken met Vertrouwen
Deep Think with Confidence
August 21, 2025
Auteurs: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben groot potentieel getoond in redeneertaken
door middel van testtijd-schaalmethoden zoals zelfconsistentie met meerderheidsstemming.
Echter, deze aanpak leidt vaak tot afnemende rendementen in nauwkeurigheid en hoge
computationale overhead. Om deze uitdagingen aan te pakken, introduceren we Deep Think
with Confidence (DeepConf), een eenvoudige maar krachtige methode die zowel de
redeneerefficiëntie als de prestaties tijdens de testtijd verbetert. DeepConf maakt gebruik van
modelinterne betrouwbaarheidssignalen om dynamisch laagwaardige redeneersporen
tijdens of na de generatie te filteren. Het vereist geen aanvullende modeltraining of
hyperparameterafstemming en kan naadloos worden geïntegreerd in bestaande
servingframeworks. We evalueren DeepConf over een verscheidenheid aan redeneertaken
en de nieuwste open-source modellen, waaronder Qwen 3 en de GPT-OSS-serie.
Opmerkelijk is dat DeepConf@512 op uitdagende benchmarks zoals AIME 2025 tot
99,9% nauwkeurigheid bereikt en de gegenereerde tokens met tot 84,7% vermindert
vergeleken met volledig parallel denken.
English
Large Language Models (LLMs) have shown great potential in reasoning tasks
through test-time scaling methods like self-consistency with majority voting.
However, this approach often leads to diminishing returns in accuracy and high
computational overhead. To address these challenges, we introduce Deep Think
with Confidence (DeepConf), a simple yet powerful method that enhances both
reasoning efficiency and performance at test time. DeepConf leverages
model-internal confidence signals to dynamically filter out low-quality
reasoning traces during or after generation. It requires no additional model
training or hyperparameter tuning and can be seamlessly integrated into
existing serving frameworks. We evaluate DeepConf across a variety of reasoning
tasks and the latest open-source models, including Qwen 3 and GPT-OSS series.
Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up
to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full
parallel thinking.