Глубокое мышление с уверенностью
Deep Think with Confidence
August 21, 2025
Авторы: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали значительный потенциал в задачах логического рассуждения благодаря методам масштабирования на этапе тестирования, таким как самосогласованность с мажоритарным голосованием. Однако этот подход часто приводит к снижению точности и высоким вычислительным затратам. Для решения этих проблем мы представляем метод Deep Think with Confidence (DeepConf) — простой, но мощный подход, который повышает как эффективность рассуждений, так и производительность на этапе тестирования. DeepConf использует внутренние сигналы уверенности модели для динамической фильтрации низкокачественных траекторий рассуждений во время или после их генерации. Метод не требует дополнительного обучения модели или настройки гиперпараметров и может быть легко интегрирован в существующие сервисные фреймворки. Мы оцениваем DeepConf на различных задачах логического рассуждения и на новейших открытых моделях, включая Qwen 3 и серию GPT-OSS. В частности, на сложных тестах, таких как AIME 2025, DeepConf@512 достигает точности до 99,9% и сокращает количество сгенерированных токенов до 84,7% по сравнению с полным параллельным рассуждением.
English
Large Language Models (LLMs) have shown great potential in reasoning tasks
through test-time scaling methods like self-consistency with majority voting.
However, this approach often leads to diminishing returns in accuracy and high
computational overhead. To address these challenges, we introduce Deep Think
with Confidence (DeepConf), a simple yet powerful method that enhances both
reasoning efficiency and performance at test time. DeepConf leverages
model-internal confidence signals to dynamically filter out low-quality
reasoning traces during or after generation. It requires no additional model
training or hyperparameter tuning and can be seamlessly integrated into
existing serving frameworks. We evaluate DeepConf across a variety of reasoning
tasks and the latest open-source models, including Qwen 3 and GPT-OSS series.
Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up
to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full
parallel thinking.