장(腸)의 직감에 따른 안내: 강화된 내재적 신뢰를 통한 효율적인 테스트 시점 스케일링
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence
May 23, 2025
저자: Amirhosein Ghasemabadi, Keith G. Mills, Baochun Li, Di Niu
cs.AI
초록
대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 테스트 타임 스케일링(TTS) 방법은 외부 프로세스 보상 모델(PRM)이나 Best-of-N(BoN)과 같은 샘플링 방법에 대한 광범위한 의존으로 인해 상당한 계산 비용을 초래하는 경우가 많다. 본 논문에서는 비용이 많이 드는 외부 검증 모델 없이도 PRM 수준의 성능을 달성하는 효율적인 자기 주도형 TTS 프레임워크인 Guided by Gut(GG)를 소개한다. 우리의 방법은 내재적 LLM 신호, 토큰 수준의 신뢰도 및 단계별 독창성만으로 유도되는 경량 트리 탐색을 사용한다. 한 가지 중요한 혁신은 표적 강화 학습 미세 조정 단계를 통해 내부 신뢰도 추정의 신뢰성을 개선한 것이다. 도전적인 수학적 추론 벤치마크에 대한 실험적 평가 결과, GG는 더 작은 모델(예: 1.5B 매개변수)이 훨씬 더 큰 모델(예: 32B-70B 매개변수)과 동등하거나 더 높은 정확도를 달성하면서 GPU 메모리 사용량을 최대 10배까지 줄일 수 있음을 보여준다. PRM 기반 방법과 비교했을 때, GG는 유사한 정확도를 달성하면서 추론 속도는 8배 더 빠르고 메모리 사용량은 4-5배 더 낮다. 또한, GG는 BoN 전략에 비해 KV 캐시 메모리 사용량을 약 50% 줄여 TTS 기술의 더 효율적이고 실용적인 배포를 가능하게 한다.
English
Test-Time Scaling (TTS) methods for enhancing Large Language Model (LLM)
reasoning often incur substantial computational costs, primarily due to
extensive reliance on external Process Reward Models (PRMs) or sampling methods
like Best-of-N (BoN). This paper introduces Guided by Gut (GG), an efficient
self-guided TTS framework that achieves PRM-level performance without costly
external verifier models. Our method employs a lightweight tree search guided
solely by intrinsic LLM signals, token-level confidence and step novelty. One
critical innovation is improving the reliability of internal confidence
estimates via a targeted reinforcement learning fine-tuning phase. Empirical
evaluations on challenging mathematical reasoning benchmarks demonstrate that
GG enables smaller models (e.g., 1.5B parameters) to achieve accuracy matching
or surpassing significantly larger models (e.g., 32B-70B parameters), while
reducing GPU memory usage by up to 10x. Compared to PRM-based methods, GG
achieves comparable accuracy with 8x faster inference speeds and 4-5x lower
memory usage. Additionally, GG reduces KV cache memory usage by approximately
50% compared to the BoN strategy, facilitating more efficient and practical
deployment of TTS techniques.Summary
AI-Generated Summary