Penser en profondeur avec confiance
Deep Think with Confidence
August 21, 2025
papers.authors: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont démontré un potentiel considérable dans les tâches de raisonnement grâce à des méthodes de mise à l'échelle au moment du test, comme l'auto-cohérence avec vote majoritaire. Cependant, cette approche entraîne souvent des rendements décroissants en termes de précision et une surcharge computationnelle élevée. Pour relever ces défis, nous introduisons Deep Think with Confidence (DeepConf), une méthode simple mais puissante qui améliore à la fois l'efficacité du raisonnement et les performances au moment du test. DeepConf exploite les signaux de confiance internes au modèle pour filtrer dynamiquement les traces de raisonnement de faible qualité pendant ou après leur génération. Elle ne nécessite aucun entraînement supplémentaire du modèle ni réglage d'hyperparamètres et peut être intégrée de manière transparente dans les frameworks de service existants. Nous évaluons DeepConf sur une variété de tâches de raisonnement et les derniers modèles open-source, notamment Qwen 3 et la série GPT-OSS. De manière notable, sur des benchmarks exigeants comme AIME 2025, DeepConf@512 atteint jusqu'à 99,9 % de précision et réduit les tokens générés jusqu'à 84,7 % par rapport à une réflexion parallèle complète.
English
Large Language Models (LLMs) have shown great potential in reasoning tasks
through test-time scaling methods like self-consistency with majority voting.
However, this approach often leads to diminishing returns in accuracy and high
computational overhead. To address these challenges, we introduce Deep Think
with Confidence (DeepConf), a simple yet powerful method that enhances both
reasoning efficiency and performance at test time. DeepConf leverages
model-internal confidence signals to dynamically filter out low-quality
reasoning traces during or after generation. It requires no additional model
training or hyperparameter tuning and can be seamlessly integrated into
existing serving frameworks. We evaluate DeepConf across a variety of reasoning
tasks and the latest open-source models, including Qwen 3 and GPT-OSS series.
Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up
to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full
parallel thinking.