ChatPaper.aiChatPaper

Руководствуясь интуицией: эффективное масштабирование во время тестирования с усиленной внутренней уверенностью

Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence

May 23, 2025
Авторы: Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu
cs.AI

Аннотация

Методы масштабирования во время тестирования (Test-Time Scaling, TTS) для улучшения рассуждений больших языковых моделей (Large Language Models, LLM) часто связаны с существенными вычислительными затратами, в основном из-за активного использования внешних моделей оценки процесса (Process Reward Models, PRM) или методов выборки, таких как Best-of-N (BoN). В данной статье представлен Guided by Gut (GG) — эффективный самоуправляемый TTS-фреймворк, который достигает уровня производительности PRM без затратных внешних моделей верификации. Наш метод использует легковесный поиск по дереву, управляемый исключительно внутренними сигналами LLM: уверенностью на уровне токенов и новизной шагов. Ключевым нововведением является повышение надежности внутренних оценок уверенности с помощью целевой фазы тонкой настройки с использованием обучения с подкреплением. Эмпирические оценки на сложных бенчмарках математического рассуждения показывают, что GG позволяет меньшим моделям (например, с 1,5 млрд параметров) достигать точности, сопоставимой или превосходящей значительно более крупные модели (например, с 32–70 млрд параметров), при этом сокращая использование памяти GPU до 10 раз. По сравнению с методами на основе PRM, GG достигает сопоставимой точности при 8-кратном увеличении скорости вывода и 4–5-кратном снижении использования памяти. Кроме того, GG сокращает использование памяти KV-кэша примерно на 50% по сравнению со стратегией BoN, что способствует более эффективному и практичному внедрению TTS-техник.
English
Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM) reasoning often incur substantial computational costs, primarily due to extensive reliance on external Process Reward Models (PRMs) or sampling methods like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient self-guided TTS framework that achieves PRM-level performance without costly external verifier models. Our method employs a lightweight tree search guided solely by intrinsic LLM signals, token-level confidence and step novelty. One critical innovation is improving the reliability of internal confidence estimates via a targeted reinforcement learning fine-tuning phase. Empirical evaluations on challenging mathematical reasoning benchmarks demonstrate that GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching or surpassing significantly larger models (e.g., 32B-70B parameters), while reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG achieves comparable accuracy with 8x faster inference speeds and 4-5x lower memory usage. Additionally, GG reduces KV cache memory usage by approximately 50% compared to the BoN strategy, facilitating more efficient and practical deployment of TTS techniques.

Summary

AI-Generated Summary

PDF442May 28, 2025