Guidati dall'Intuito: Scalatura Efficiente al Momento del Test con Fiducia Intrinseca Rinforzata
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence
May 23, 2025
Autori: Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu
cs.AI
Abstract
I metodi di Test-Time Scaling (TTS) per migliorare il ragionamento dei Large Language Model (LLM) spesso comportano costi computazionali significativi, principalmente a causa dell'ampio affidamento su modelli esterni di Process Reward Models (PRM) o su metodi di campionamento come Best-of-N (BoN). Questo articolo introduce Guided by Gut (GG), un framework TTS autoguidato ed efficiente che raggiunge prestazioni paragonabili ai PRM senza l'uso costoso di modelli verificatori esterni. Il nostro metodo utilizza una ricerca ad albero leggera guidata esclusivamente da segnali intrinseci del LLM, come la confidenza a livello di token e la novità del passo. Un'innovazione cruciale è il miglioramento dell'affidabilità delle stime di confidenza interne attraverso una fase di fine-tuning mirata con apprendimento per rinforzo. Valutazioni empiriche su benchmark impegnativi di ragionamento matematico dimostrano che GG consente a modelli più piccoli (ad esempio, 1,5 miliardi di parametri) di raggiungere un'accuratezza pari o superiore a modelli significativamente più grandi (ad esempio, 32-70 miliardi di parametri), riducendo l'uso della memoria GPU fino a 10 volte. Rispetto ai metodi basati su PRM, GG raggiunge un'accuratezza comparabile con velocità di inferenza 8 volte più veloci e un uso della memoria 4-5 volte inferiore. Inoltre, GG riduce l'uso della memoria della cache KV di circa il 50% rispetto alla strategia BoN, facilitando un'implementazione più efficiente e pratica delle tecniche TTS.
English
Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM)
reasoning often incur substantial computational costs, primarily due to
extensive reliance on external Process Reward Models (PRMs) or sampling methods
like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient
self-guided TTS framework that achieves PRM-level performance without costly
external verifier models. Our method employs a lightweight tree search guided
solely by intrinsic LLM signals, token-level confidence and step novelty. One
critical innovation is improving the reliability of internal confidence
estimates via a targeted reinforcement learning fine-tuning phase. Empirical
evaluations on challenging mathematical reasoning benchmarks demonstrate that
GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching
or surpassing significantly larger models (e.g., 32B-70B parameters), while
reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG
achieves comparable accuracy with 8x faster inference speeds and 4-5x lower
memory usage. Additionally, GG reduces KV cache memory usage by approximately
50% compared to the BoN strategy, facilitating more efficient and practical
deployment of TTS techniques.