Guiado por el Intuición: Escalado Eficiente en Tiempo de Prueba con Confianza Intrínseca Reforzada
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence
May 23, 2025
Autores: Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu
cs.AI
Resumen
Los métodos de Escalado en Tiempo de Prueba (TTS, por sus siglas en inglés) para mejorar el razonamiento de los Modelos de Lenguaje a Gran Escala (LLM) suelen incurrir en costos computacionales sustanciales, principalmente debido a la dependencia extensiva de Modelos de Recompensa de Procesos (PRM) externos o métodos de muestreo como Mejor-de-N (BoN). Este artículo presenta Guiado por Intuición (GG), un marco TTS autoguiado eficiente que logra un rendimiento comparable al de los PRM sin la necesidad de costosos modelos verificadores externos. Nuestro método emplea una búsqueda en árbol ligera guiada únicamente por señales intrínsecas del LLM, como la confianza a nivel de token y la novedad de los pasos. Una innovación crítica es la mejora de la fiabilidad de las estimaciones de confianza interna mediante una fase de ajuste fino de aprendizaje por refuerzo dirigido. Las evaluaciones empíricas en benchmarks desafiantes de razonamiento matemático demuestran que GG permite que modelos más pequeños (por ejemplo, de 1.5 mil millones de parámetros) alcancen una precisión igual o superior a la de modelos significativamente más grandes (por ejemplo, de 32 a 70 mil millones de parámetros), mientras reduce el uso de memoria GPU hasta en 10 veces. En comparación con los métodos basados en PRM, GG logra una precisión comparable con velocidades de inferencia 8 veces más rápidas y un uso de memoria 4-5 veces menor. Además, GG reduce el uso de memoria de la caché KV en aproximadamente un 50% en comparación con la estrategia BoN, facilitando una implementación más eficiente y práctica de las técnicas TTS.
English
Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM)
reasoning often incur substantial computational costs, primarily due to
extensive reliance on external Process Reward Models (PRMs) or sampling methods
like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient
self-guided TTS framework that achieves PRM-level performance without costly
external verifier models. Our method employs a lightweight tree search guided
solely by intrinsic LLM signals, token-level confidence and step novelty. One
critical innovation is improving the reliability of internal confidence
estimates via a targeted reinforcement learning fine-tuning phase. Empirical
evaluations on challenging mathematical reasoning benchmarks demonstrate that
GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching
or surpassing significantly larger models (e.g., 32B-70B parameters), while
reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG
achieves comparable accuracy with 8x faster inference speeds and 4-5x lower
memory usage. Additionally, GG reduces KV cache memory usage by approximately
50% compared to the BoN strategy, facilitating more efficient and practical
deployment of TTS techniques.Summary
AI-Generated Summary