Geleid door Intuïtie: Efficiënte Schaling tijdens Testen met Versterkte Intrinsieke Betrouwbaarheid
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence
May 23, 2025
Auteurs: Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu
cs.AI
Samenvatting
Test-Time Scaling (TTS)-methoden voor het verbeteren van het redeneervermogen van Large Language Models (LLM) brengen vaak aanzienlijke rekenkosten met zich mee, voornamelijk door de uitgebreide afhankelijkheid van externe Process Reward Models (PRM's) of steekproefmethoden zoals Best-of-N (BoN). Dit artikel introduceert Guided by Gut (GG), een efficiënt zelfgeleid TTS-raamwerk dat PRM-niveau prestaties bereikt zonder kostbare externe verificatiemodellen. Onze methode maakt gebruik van een lichtgewicht boomzoekactie die uitsluitend wordt geleid door intrinsieke LLM-signalen, token-niveau vertrouwen en stap-nieuwigheid. Een cruciale innovatie is het verbeteren van de betrouwbaarheid van interne vertrouwensschattingen via een gerichte fine-tuningfase met reinforcement learning. Empirische evaluaties op uitdagende wiskundige redeneerbenchmarks tonen aan dat GG kleinere modellen (bijv. 1,5B parameters) in staat stelt om nauwkeurigheid te bereiken die overeenkomt met of zelfs overtreft van aanzienlijk grotere modellen (bijv. 32B-70B parameters), terwijl het GPU-geheugengebruik tot 10x wordt verminderd. Vergeleken met PRM-gebaseerde methoden bereikt GG vergelijkbare nauwkeurigheid met 8x snellere inferentiesnelheden en 4-5x lager geheugengebruik. Bovendien vermindert GG het KV-cache-geheugengebruik met ongeveer 50% in vergelijking met de BoN-strategie, wat een efficiëntere en praktischere implementatie van TTS-technieken mogelijk maakt.
English
Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM)
reasoning often incur substantial computational costs, primarily due to
extensive reliance on external Process Reward Models (PRMs) or sampling methods
like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient
self-guided TTS framework that achieves PRM-level performance without costly
external verifier models. Our method employs a lightweight tree search guided
solely by intrinsic LLM signals, token-level confidence and step novelty. One
critical innovation is improving the reliability of internal confidence
estimates via a targeted reinforcement learning fine-tuning phase. Empirical
evaluations on challenging mathematical reasoning benchmarks demonstrate that
GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching
or surpassing significantly larger models (e.g., 32B-70B parameters), while
reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG
achieves comparable accuracy with 8x faster inference speeds and 4-5x lower
memory usage. Additionally, GG reduces KV cache memory usage by approximately
50% compared to the BoN strategy, facilitating more efficient and practical
deployment of TTS techniques.