ChatPaper.aiChatPaper

Pense Profundamente com Confiança

Deep Think with Confidence

August 21, 2025
Autores: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) demonstraram grande potencial em tarefas de raciocínio por meio de métodos de escalonamento em tempo de teste, como a auto-consistência com votação majoritária. No entanto, essa abordagem frequentemente resulta em retornos decrescentes em precisão e alto custo computacional. Para enfrentar esses desafios, introduzimos o Deep Think with Confidence (DeepConf), um método simples, porém poderoso, que melhora tanto a eficiência do raciocínio quanto o desempenho em tempo de teste. O DeepConf utiliza sinais internos de confiança do modelo para filtrar dinamicamente traços de raciocínio de baixa qualidade durante ou após a geração. Ele não requer treinamento adicional do modelo ou ajuste de hiperparâmetros e pode ser integrado de forma transparente em frameworks de serviço existentes. Avaliamos o DeepConf em uma variedade de tarefas de raciocínio e nos modelos de código aberto mais recentes, incluindo Qwen 3 e a série GPT-OSS. Notavelmente, em benchmarks desafiadores como o AIME 2025, o DeepConf@512 alcança até 99,9% de precisão e reduz os tokens gerados em até 84,7% em comparação com o pensamento paralelo completo.
English
Large Language Models (LLMs) have shown great potential in reasoning tasks through test-time scaling methods like self-consistency with majority voting. However, this approach often leads to diminishing returns in accuracy and high computational overhead. To address these challenges, we introduce Deep Think with Confidence (DeepConf), a simple yet powerful method that enhances both reasoning efficiency and performance at test time. DeepConf leverages model-internal confidence signals to dynamically filter out low-quality reasoning traces during or after generation. It requires no additional model training or hyperparameter tuning and can be seamlessly integrated into existing serving frameworks. We evaluate DeepConf across a variety of reasoning tasks and the latest open-source models, including Qwen 3 and GPT-OSS series. Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full parallel thinking.
PDF837August 22, 2025