Geleid door Intuïtie: Efficiënte Schaling tijdens Testen met Versterkte Intrinsieke Betrouwbaarheid

Samenvatting

Test-Time Scaling (TTS)-methoden voor het verbeteren van het redeneervermogen van Large Language Models (LLM) brengen vaak aanzienlijke rekenkosten met zich mee, voornamelijk door de uitgebreide afhankelijkheid van externe Process Reward Models (PRM's) of steekproefmethoden zoals Best-of-N (BoN). Dit artikel introduceert Guided by Gut (GG), een efficiënt zelfgeleid TTS-raamwerk dat PRM-niveau prestaties bereikt zonder kostbare externe verificatiemodellen. Onze methode maakt gebruik van een lichtgewicht boomzoekactie die uitsluitend wordt geleid door intrinsieke LLM-signalen, token-niveau vertrouwen en stap-nieuwigheid. Een cruciale innovatie is het verbeteren van de betrouwbaarheid van interne vertrouwensschattingen via een gerichte fine-tuningfase met reinforcement learning. Empirische evaluaties op uitdagende wiskundige redeneerbenchmarks tonen aan dat GG kleinere modellen (bijv. 1,5B parameters) in staat stelt om nauwkeurigheid te bereiken die overeenkomt met of zelfs overtreft van aanzienlijk grotere modellen (bijv. 32B-70B parameters), terwijl het GPU-geheugengebruik tot 10x wordt verminderd. Vergeleken met PRM-gebaseerde methoden bereikt GG vergelijkbare nauwkeurigheid met 8x snellere inferentiesnelheden en 4-5x lager geheugengebruik. Bovendien vermindert GG het KV-cache-geheugengebruik met ongeveer 50% in vergelijking met de BoN-strategie, wat een efficiëntere en praktischere implementatie van TTS-technieken mogelijk maakt.

English

Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM) reasoning often incur substantial computational costs, primarily due to extensive reliance on external Process Reward Models (PRMs) or sampling methods like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient self-guided TTS framework that achieves PRM-level performance without costly external verifier models. Our method employs a lightweight tree search guided solely by intrinsic LLM signals, token-level confidence and step novelty. One critical innovation is improving the reliability of internal confidence estimates via a targeted reinforcement learning fine-tuning phase. Empirical evaluations on challenging mathematical reasoning benchmarks demonstrate that GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching or surpassing significantly larger models (e.g., 32B-70B parameters), while reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG achieves comparable accuracy with 8x faster inference speeds and 4-5x lower memory usage. Additionally, GG reduces KV cache memory usage by approximately 50% compared to the BoN strategy, facilitating more efficient and practical deployment of TTS techniques.

Geleid door Intuïtie: Efficiënte Schaling tijdens Testen met Versterkte Intrinsieke Betrouwbaarheid

Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence

Samenvatting

Support