這是你的最終答案嗎?測試時調整提升選擇性問答表現Is That Your Final Answer? Test-Time Scaling Improves Selective Question
Answering
擴大大型語言模型在測試時的計算資源,已展現出在推理基準測試上的卓越表現。然而,現有的測試規模評估強烈假設推理系統應對任何提出的問題都給出答案。這忽略了模型對其答案是否自信,以及是否總是適合提供回應的考量。為解決這些問題,我們在推理過程中提取置信度分數,用於閾值化模型回應。我們發現,在推理時增加計算預算不僅幫助模型更正確地回答更多問題,還提高了對正確回應的信心。接著,我們通過考慮非零回應風險的設定,擴展了當前評估中零風險回應的範式,並建議在這些設定下報告評估結果的方法。