Tiefes Denken mit Zuversicht
Deep Think with Confidence
August 21, 2025
papers.authors: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben großes Potenzial bei Denkaufgaben durch Skalierungsmethoden zur Testzeit wie Selbstkonsistenz mit Mehrheitsentscheidung gezeigt. Dieser Ansatz führt jedoch oft zu abnehmenden Genauigkeitssteigerungen und hohem Rechenaufwand. Um diese Herausforderungen zu bewältigen, stellen wir Deep Think with Confidence (DeepConf) vor, eine einfache, aber leistungsstarke Methode, die sowohl die Denkeffizienz als auch die Leistung zur Testzeit verbessert. DeepConf nutzt modellinterne Konfidenzsignale, um qualitativ minderwertige Denkspuren während oder nach der Generierung dynamisch herauszufiltern. Es erfordert kein zusätzliches Modelltraining oder Hyperparameter-Tuning und kann nahtlos in bestehende Bereitstellungsframeworks integriert werden. Wir evaluieren DeepConf über eine Vielzahl von Denkaufgaben und den neuesten Open-Source-Modellen, einschließlich Qwen 3 und der GPT-OSS-Serie. Bemerkenswerterweise erreicht DeepConf@512 auf anspruchsvollen Benchmarks wie AIME 2025 eine Genauigkeit von bis zu 99,9 % und reduziert die generierten Tokens um bis zu 84,7 % im Vergleich zu vollständig parallelem Denken.
English
Large Language Models (LLMs) have shown great potential in reasoning tasks
through test-time scaling methods like self-consistency with majority voting.
However, this approach often leads to diminishing returns in accuracy and high
computational overhead. To address these challenges, we introduce Deep Think
with Confidence (DeepConf), a simple yet powerful method that enhances both
reasoning efficiency and performance at test time. DeepConf leverages
model-internal confidence signals to dynamically filter out low-quality
reasoning traces during or after generation. It requires no additional model
training or hyperparameter tuning and can be seamlessly integrated into
existing serving frameworks. We evaluate DeepConf across a variety of reasoning
tasks and the latest open-source models, including Qwen 3 and GPT-OSS series.
Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up
to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full
parallel thinking.