Pensiero Profondo con Fiducia
Deep Think with Confidence
August 21, 2025
Autori: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un grande potenziale nei compiti di ragionamento attraverso metodi di scalatura al momento del test come l'autoconsistenza con voto a maggioranza. Tuttavia, questo approccio spesso porta a rendimenti decrescenti in termini di accuratezza e a un elevato sovraccarico computazionale. Per affrontare queste sfide, introduciamo Deep Think with Confidence (DeepConf), un metodo semplice ma potente che migliora sia l'efficienza del ragionamento che le prestazioni al momento del test. DeepConf sfrutta i segnali di confidenza interni al modello per filtrare dinamicamente le tracce di ragionamento di bassa qualità durante o dopo la generazione. Non richiede ulteriori addestramenti del modello o ottimizzazione di iperparametri e può essere integrato senza soluzione di continuità nei framework di servizio esistenti. Valutiamo DeepConf su una varietà di compiti di ragionamento e sui più recenti modelli open-source, tra cui Qwen 3 e la serie GPT-OSS. In particolare, su benchmark impegnativi come AIME 2025, DeepConf@512 raggiunge un'accuratezza fino al 99,9% e riduce i token generati fino all'84,7% rispetto al pensiero parallelo completo.
English
Large Language Models (LLMs) have shown great potential in reasoning tasks
through test-time scaling methods like self-consistency with majority voting.
However, this approach often leads to diminishing returns in accuracy and high
computational overhead. To address these challenges, we introduce Deep Think
with Confidence (DeepConf), a simple yet powerful method that enhances both
reasoning efficiency and performance at test time. DeepConf leverages
model-internal confidence signals to dynamically filter out low-quality
reasoning traces during or after generation. It requires no additional model
training or hyperparameter tuning and can be seamlessly integrated into
existing serving frameworks. We evaluate DeepConf across a variety of reasoning
tasks and the latest open-source models, including Qwen 3 and GPT-OSS series.
Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up
to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full
parallel thinking.