簡單的測試時間縮放s1: Simple test-time scaling
測試時間擴展是一種有前途的語言建模新方法,利用額外的測試時間計算來提高性能。最近,OpenAI的o1模型展示了這種能力,但並未公開分享其方法論,導致許多複製努力。我們尋求實現測試時間擴展和強大推理性能的最簡單方法。首先,我們匯集了一個包含1,000個問題和推理軌跡的小數據集s1K,依賴我們通過消融驗證的三個標準:難度、多樣性和質量。其次,我們開發了預算強制方法來控制測試時間計算,通過強制終止模型的思考過程或在模型嘗試結束時多次附加“等待”來延長思考時間。這可以促使模型重新檢查答案,通常修正不正確的推理步驟。在對Qwen2.5-32B-Instruct語言模型在s1K上進行監督微調並配備預算強制後,我們的模型s1在競賽數學問題中超過了o1-preview最多27%(MATH和AIME24)。此外,通過預算強制對s1進行擴展,可以在無需測試時間干預的情況下超越其性能:從AIME24的50%提高到57%。我們的模型、數據和代碼在https://github.com/simplescaling/s1上開源。