Geführt vom Bauchgefühl: Effiziente Skalierung zur Testzeit mit verstärktem intrinsischem Vertrauen
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence
May 23, 2025
Autoren: Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu
cs.AI
Zusammenfassung
Test-Time Scaling (TTS)-Methoden zur Verbesserung des logischen Denkens von Large Language Models (LLMs) verursachen oft erhebliche Rechenkosten, hauptsächlich aufgrund der starken Abhängigkeit von externen Process Reward Models (PRMs) oder Sampling-Methoden wie Best-of-N (BoN). Dieses Papier stellt Guided by Gut (GG) vor, ein effizientes, selbstgesteuertes TTS-Framework, das PRM-Level-Leistung ohne kostspielige externe Verifikationsmodelle erreicht. Unsere Methode verwendet eine leichtgewichtige Baumsuche, die ausschließlich durch intrinsische LLM-Signale, Token-Level-Konfidenz und Schritt-Neuheit gesteuert wird. Eine entscheidende Innovation ist die Verbesserung der Zuverlässigkeit interner Konfidenzschätzungen durch eine gezielte Feinabstimmung mittels Reinforcement Learning. Empirische Auswertungen auf anspruchsvollen mathematischen Denkaufgaben zeigen, dass GG kleineren Modellen (z. B. 1,5 Mrd. Parametern) ermöglicht, eine Genauigkeit zu erreichen, die mit oder über der von deutlich größeren Modellen (z. B. 32-70 Mrd. Parametern) liegt, während der GPU-Speicherbedarf um bis zu das 10-fache reduziert wird. Im Vergleich zu PRM-basierten Methoden erreicht GG eine vergleichbare Genauigkeit mit 8-fach schnelleren Inferenzgeschwindigkeiten und 4-5-fach geringerem Speicherbedarf. Darüber hinaus reduziert GG den KV-Cache-Speicherbedarf um etwa 50 % im Vergleich zur BoN-Strategie, was eine effizientere und praktischere Implementierung von TTS-Techniken ermöglicht.
English
Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM)
reasoning often incur substantial computational costs, primarily due to
extensive reliance on external Process Reward Models (PRMs) or sampling methods
like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient
self-guided TTS framework that achieves PRM-level performance without costly
external verifier models. Our method employs a lightweight tree search guided
solely by intrinsic LLM signals, token-level confidence and step novelty. One
critical innovation is improving the reliability of internal confidence
estimates via a targeted reinforcement learning fine-tuning phase. Empirical
evaluations on challenging mathematical reasoning benchmarks demonstrate that
GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching
or surpassing significantly larger models (e.g., 32B-70B parameters), while
reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG
achieves comparable accuracy with 8x faster inference speeds and 4-5x lower
memory usage. Additionally, GG reduces KV cache memory usage by approximately
50% compared to the BoN strategy, facilitating more efficient and practical
deployment of TTS techniques.Summary
AI-Generated Summary