効率的なテスト時スケーリングのための自己較正
Efficient Test-Time Scaling via Self-Calibration
February 25, 2025
著者: Chengsong Huang, Langlin Huang, Jixuan Leng, Jiacheng Liu, Jiaxin Huang
cs.AI
要旨
テスト時の計算量を増やすことは、大規模言語モデル(LLM)の応答品質を向上させるための直接的なアプローチです。Best-of-Nサンプリングや多数決を用いたSelf-Consistencyはシンプルで効果的ですが、各クエリに対して固定数のサンプル応答を必要とし、その複雑さに関わらず同じ計算量を使用します。これにより、単純な質問に対しては計算リソースが無駄になり、より難しい質問に対しては十分な探索が行われない可能性があります。本研究では、モデルの応答に対する信頼度を利用することで、テスト時のスケーリング効率を改善できると主張します。しかし、LLMは過信しやすく、信頼度の推定が不正確であることが知られています。この課題を解決するため、Self-Consistencyから得られた信頼度をモデル自体に蒸留するSelf-Calibrationを導入します。これにより、テスト時に1回のフォワードパスで信頼度を正確に推定できるようになります。さらに、様々な難易度のクエリに対応するため、信頼度に基づく効率的なテスト時スケーリング手法を設計します。具体的には、Best-of-Nに対するEarly-Stoppingや、校正された信頼度を用いたSelf-Consistencyなどが含まれます。3つのLLMと6つのデータセットを用いた実験により、本手法の有効性が実証されました。特に、Best-of-Nに信頼度ベースのEarly Stoppingを適用した場合、MathQAの精度が81.0から83.6に向上し、16回のサンプル予算内で推論時の信頼度ベースサンプリング戦略の効果が確認されました。
English
Increasing test-time computation is a straightforward approach to enhancing
the quality of responses in Large Language Models (LLMs). While Best-of-N
sampling and Self-Consistency with majority voting are simple and effective,
they require a fixed number of sampling responses for each query, regardless of
its complexity. This could result in wasted computation for simpler questions
and insufficient exploration for more challenging ones. In this work, we argue
that model confidence of responses can be used for improving the efficiency of
test-time scaling. Unfortunately, LLMs are known to be overconfident and
provide unreliable confidence estimation. To address this limitation, we
introduce Self-Calibration by distilling Self-Consistency-derived confidence
into the model itself. This enables reliable confidence estimation at test time
with one forward pass. We then design confidence-based efficient test-time
scaling methods to handle queries of various difficulty, such as Early-Stopping
for Best-of-N and Self-Consistency with calibrated confidence. Experiments on
three LLMs across six datasets demonstrate the effectiveness of our approach.
Specifically, applying confidence-based Early Stopping to Best-of-N improves
MathQA accuracy from 81.0 to 83.6 with a sample budget of 16 responses,
indicating the efficacy of confidence-based sampling strategy at inference
time.Summary
AI-Generated Summary