Guidé par l'Intuition : Mise à l'Échelle Efficace en Temps de Test avec Confiance Intrinsèque Renforcée
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence
May 23, 2025
papers.authors: Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu
cs.AI
papers.abstract
Les méthodes de mise à l'échelle au moment du test (Test-Time Scaling, TTS) pour améliorer le raisonnement des grands modèles de langage (Large Language Models, LLM) entraînent souvent des coûts de calcul substantiels, principalement en raison d'une dépendance excessive à des modèles de récompense de processus externes (Process Reward Models, PRM) ou à des méthodes d'échantillonnage comme Best-of-N (BoN). Cet article présente Guided by Gut (GG), un cadre TTS autoguidé efficace qui atteint des performances comparables à celles des PRM sans recourir à des modèles de vérification externes coûteux. Notre méthode utilise une recherche arborescente légère guidée uniquement par des signaux intrinsèques du LLM, à savoir la confiance au niveau des tokens et la nouveauté des étapes. Une innovation majeure consiste à améliorer la fiabilité des estimations de confiance internes via une phase de réglage par apprentissage par renforcement ciblé. Les évaluations empiriques sur des benchmarks de raisonnement mathématique complexes montrent que GG permet à des modèles plus petits (par exemple, 1,5 milliard de paramètres) d'atteindre une précision équivalente ou supérieure à celle de modèles nettement plus grands (par exemple, 32 à 70 milliards de paramètres), tout en réduisant l'utilisation de mémoire GPU jusqu'à 10 fois. Par rapport aux méthodes basées sur les PRM, GG atteint une précision comparable avec des vitesses d'inférence 8 fois plus rapides et une utilisation de mémoire 4 à 5 fois moindre. De plus, GG réduit l'utilisation de la mémoire du cache KV d'environ 50 % par rapport à la stratégie BoN, facilitant ainsi un déploiement plus efficace et pratique des techniques TTS.
English
Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM)
reasoning often incur substantial computational costs, primarily due to
extensive reliance on external Process Reward Models (PRMs) or sampling methods
like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient
self-guided TTS framework that achieves PRM-level performance without costly
external verifier models. Our method employs a lightweight tree search guided
solely by intrinsic LLM signals, token-level confidence and step novelty. One
critical innovation is improving the reliability of internal confidence
estimates via a targeted reinforcement learning fine-tuning phase. Empirical
evaluations on challenging mathematical reasoning benchmarks demonstrate that
GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching
or surpassing significantly larger models (e.g., 32B-70B parameters), while
reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG
achieves comparable accuracy with 8x faster inference speeds and 4-5x lower
memory usage. Additionally, GG reduces KV cache memory usage by approximately
50% compared to the BoN strategy, facilitating more efficient and practical
deployment of TTS techniques.