Pensar Profundamente con Confianza
Deep Think with Confidence
August 21, 2025
Autores: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un gran potencial en tareas de razonamiento mediante métodos de escalado en tiempo de prueba, como la autoconsistencia con votación mayoritaria. Sin embargo, este enfoque suele generar rendimientos decrecientes en precisión y un alto costo computacional. Para abordar estos desafíos, presentamos Deep Think with Confidence (DeepConf), un método simple pero potente que mejora tanto la eficiencia del razonamiento como el rendimiento en tiempo de prueba. DeepConf aprovecha señales internas de confianza del modelo para filtrar dinámicamente trazas de razonamiento de baja calidad durante o después de su generación. No requiere entrenamiento adicional del modelo ni ajuste de hiperparámetros y puede integrarse sin problemas en marcos de servicio existentes. Evaluamos DeepConf en una variedad de tareas de razonamiento y en los últimos modelos de código abierto, incluyendo Qwen 3 y la serie GPT-OSS. Destacablemente, en puntos de referencia desafiantes como AIME 2025, DeepConf@512 alcanza hasta un 99.9% de precisión y reduce los tokens generados hasta en un 84.7% en comparación con el pensamiento paralelo completo.
English
Large Language Models (LLMs) have shown great potential in reasoning tasks
through test-time scaling methods like self-consistency with majority voting.
However, this approach often leads to diminishing returns in accuracy and high
computational overhead. To address these challenges, we introduce Deep Think
with Confidence (DeepConf), a simple yet powerful method that enhances both
reasoning efficiency and performance at test time. DeepConf leverages
model-internal confidence signals to dynamically filter out low-quality
reasoning traces during or after generation. It requires no additional model
training or hyperparameter tuning and can be seamlessly integrated into
existing serving frameworks. We evaluate DeepConf across a variety of reasoning
tasks and the latest open-source models, including Qwen 3 and GPT-OSS series.
Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up
to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full
parallel thinking.