ChatPaper.aiChatPaper

効率的なテスト時スケーリングのための自己較正

Efficient Test-Time Scaling via Self-Calibration

February 25, 2025
著者: Chengsong Huang, Langlin Huang, Jixuan Leng, Jiacheng Liu, Jiaxin Huang
cs.AI

要旨

テスト時の計算量を増やすことは、大規模言語モデル(LLM)の応答品質を向上させるための直接的なアプローチです。Best-of-Nサンプリングや多数決を用いたSelf-Consistencyはシンプルで効果的ですが、各クエリに対して固定数のサンプル応答を必要とし、その複雑さに関わらず同じ計算量を使用します。これにより、単純な質問に対しては計算リソースが無駄になり、より難しい質問に対しては十分な探索が行われない可能性があります。本研究では、モデルの応答に対する信頼度を利用することで、テスト時のスケーリング効率を改善できると主張します。しかし、LLMは過信しやすく、信頼度の推定が不正確であることが知られています。この課題を解決するため、Self-Consistencyから得られた信頼度をモデル自体に蒸留するSelf-Calibrationを導入します。これにより、テスト時に1回のフォワードパスで信頼度を正確に推定できるようになります。さらに、様々な難易度のクエリに対応するため、信頼度に基づく効率的なテスト時スケーリング手法を設計します。具体的には、Best-of-Nに対するEarly-Stoppingや、校正された信頼度を用いたSelf-Consistencyなどが含まれます。3つのLLMと6つのデータセットを用いた実験により、本手法の有効性が実証されました。特に、Best-of-Nに信頼度ベースのEarly Stoppingを適用した場合、MathQAの精度が81.0から83.6に向上し、16回のサンプル予算内で推論時の信頼度ベースサンプリング戦略の効果が確認されました。
English
Increasing test-time computation is a straightforward approach to enhancing the quality of responses in Large Language Models (LLMs). While Best-of-N sampling and Self-Consistency with majority voting are simple and effective, they require a fixed number of sampling responses for each query, regardless of its complexity. This could result in wasted computation for simpler questions and insufficient exploration for more challenging ones. In this work, we argue that model confidence of responses can be used for improving the efficiency of test-time scaling. Unfortunately, LLMs are known to be overconfident and provide unreliable confidence estimation. To address this limitation, we introduce Self-Calibration by distilling Self-Consistency-derived confidence into the model itself. This enables reliable confidence estimation at test time with one forward pass. We then design confidence-based efficient test-time scaling methods to handle queries of various difficulty, such as Early-Stopping for Best-of-N and Self-Consistency with calibrated confidence. Experiments on three LLMs across six datasets demonstrate the effectiveness of our approach. Specifically, applying confidence-based Early Stopping to Best-of-N improves MathQA accuracy from 81.0 to 83.6 with a sample budget of 16 responses, indicating the efficacy of confidence-based sampling strategy at inference time.

Summary

AI-Generated Summary

PDF152March 4, 2025