Guiado pela Intuição: Escalonamento Eficiente em Tempo de Teste com Confiança Intrínseca Reforçada
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence
May 23, 2025
Autores: Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu
cs.AI
Resumo
Métodos de Escalonamento em Tempo de Teste (TTS) para aprimorar o raciocínio de Modelos de Linguagem de Grande Escala (LLMs) frequentemente acarretam custos computacionais substanciais, principalmente devido à extensa dependência de Modelos de Recompensa de Processo (PRMs) externos ou métodos de amostragem como Best-of-N (BoN). Este artigo apresenta o Guided by Gut (GG), uma estrutura TTS autoguiada eficiente que alcança desempenho no nível de PRMs sem a necessidade de modelos verificadores externos custosos. Nosso método emprega uma busca em árvore leve guiada apenas por sinais intrínsecos do LLM, como confiança no nível de token e novidade no passo. Uma inovação crítica é a melhoria da confiabilidade das estimativas de confiança interna por meio de uma fase de ajuste fino com reforço direcionado. Avaliações empíricas em benchmarks desafiadores de raciocínio matemático demonstram que o GG permite que modelos menores (por exemplo, 1,5 bilhão de parâmetros) alcancem precisão igual ou superior a modelos significativamente maiores (por exemplo, 32-70 bilhões de parâmetros), enquanto reduz o uso de memória GPU em até 10 vezes. Comparado a métodos baseados em PRMs, o GG alcança precisão comparável com velocidades de inferência 8 vezes mais rápidas e uso de memória 4-5 vezes menor. Além disso, o GG reduz o uso de memória do cache KV em aproximadamente 50% em relação à estratégia BoN, facilitando uma implantação mais eficiente e prática de técnicas TTS.
English
Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM)
reasoning often incur substantial computational costs, primarily due to
extensive reliance on external Process Reward Models (PRMs) or sampling methods
like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient
self-guided TTS framework that achieves PRM-level performance without costly
external verifier models. Our method employs a lightweight tree search guided
solely by intrinsic LLM signals, token-level confidence and step novelty. One
critical innovation is improving the reliability of internal confidence
estimates via a targeted reinforcement learning fine-tuning phase. Empirical
evaluations on challenging mathematical reasoning benchmarks demonstrate that
GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching
or surpassing significantly larger models (e.g., 32B-70B parameters), while
reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG
achieves comparable accuracy with 8x faster inference speeds and 4-5x lower
memory usage. Additionally, GG reduces KV cache memory usage by approximately
50% compared to the BoN strategy, facilitating more efficient and practical
deployment of TTS techniques.