それが最終回答ですか?テスト時のスケーリングが選択的質問応答を改善するIs That Your Final Answer? Test-Time Scaling Improves Selective Question
Answering
大規模言語モデルの推論時の計算リソースをスケーリングすることは、推論ベンチマークにおいて印象的な性能を示すことが実証されています。しかし、既存の推論時スケーリング評価では、推論システムが与えられたあらゆる質問に対して常に回答を提供すべきであるという強い仮定が置かれています。これでは、モデルが自身の回答に自信を持っているかどうか、また常に回答を提供することが適切かどうかといった懸念が見落とされています。これらの懸念に対処するため、我々は推論中に信頼度スコアを抽出し、モデルの回答を閾値処理します。推論時の計算予算を増やすことで、モデルがより多くの質問に正しく回答できるだけでなく、正しい回答に対する自信も高まることがわかりました。さらに、我々は評価時のゼロリスク回答という現在のパラダイムを拡張し、非ゼロの回答リスクレベルを考慮した設定を検討し、これらの設定下での評価報告のための方法論を提案します。