ChatPaper.aiChatPaper

Guiado pela Intuição: Escalonamento Eficiente em Tempo de Teste com Confiança Intrínseca Reforçada

Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence

May 23, 2025
Autores: Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu
cs.AI

Resumo

Métodos de Escalonamento em Tempo de Teste (TTS) para aprimorar o raciocínio de Modelos de Linguagem de Grande Escala (LLMs) frequentemente acarretam custos computacionais substanciais, principalmente devido à extensa dependência de Modelos de Recompensa de Processo (PRMs) externos ou métodos de amostragem como Best-of-N (BoN). Este artigo apresenta o Guided by Gut (GG), uma estrutura TTS autoguiada eficiente que alcança desempenho no nível de PRMs sem a necessidade de modelos verificadores externos custosos. Nosso método emprega uma busca em árvore leve guiada apenas por sinais intrínsecos do LLM, como confiança no nível de token e novidade no passo. Uma inovação crítica é a melhoria da confiabilidade das estimativas de confiança interna por meio de uma fase de ajuste fino com reforço direcionado. Avaliações empíricas em benchmarks desafiadores de raciocínio matemático demonstram que o GG permite que modelos menores (por exemplo, 1,5 bilhão de parâmetros) alcancem precisão igual ou superior a modelos significativamente maiores (por exemplo, 32-70 bilhões de parâmetros), enquanto reduz o uso de memória GPU em até 10 vezes. Comparado a métodos baseados em PRMs, o GG alcança precisão comparável com velocidades de inferência 8 vezes mais rápidas e uso de memória 4-5 vezes menor. Além disso, o GG reduz o uso de memória do cache KV em aproximadamente 50% em relação à estratégia BoN, facilitando uma implantação mais eficiente e prática de técnicas TTS.
English
Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM) reasoning often incur substantial computational costs, primarily due to extensive reliance on external Process Reward Models (PRMs) or sampling methods like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient self-guided TTS framework that achieves PRM-level performance without costly external verifier models. Our method employs a lightweight tree search guided solely by intrinsic LLM signals, token-level confidence and step novelty. One critical innovation is improving the reliability of internal confidence estimates via a targeted reinforcement learning fine-tuning phase. Empirical evaluations on challenging mathematical reasoning benchmarks demonstrate that GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching or surpassing significantly larger models (e.g., 32B-70B parameters), while reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG achieves comparable accuracy with 8x faster inference speeds and 4-5x lower memory usage. Additionally, GG reduces KV cache memory usage by approximately 50% compared to the BoN strategy, facilitating more efficient and practical deployment of TTS techniques.
PDF462December 4, 2025