s1: シンプルなテスト時のスケーリングs1: Simple test-time scaling
テスト時のスケーリングは、性能向上のために追加のテスト時計算を使用する言語モデリングへの有望な新しいアプローチです。最近、OpenAIのo1モデルはこの能力を示しましたが、その方法論を公開しておらず、多くの複製の試みが行われました。私たちは、テスト時のスケーリングと強力な推論性能を達成するための最も簡単なアプローチを求めています。まず、難易度、多様性、品質に依存する推論トレースとペアになった1,000の質問からなる小さなデータセットs1Kを収集します。次に、予算強制を開発して、モデルの思考プロセスを強制的に終了させるか、モデルが終了しようとするときに「Wait」を複数回追加してその長さを延長することで、テスト時の計算を制御します。これにより、モデルは回答を再確認し、しばしば誤った推論ステップを修正します。Qwen2.5-32B-Instruct言語モデルをs1Kで監督されたファインチューニングし、予算強制を装備した後、当社のモデルs1は、競技数学の質問においてo1-previewを最大27%(MATHおよびAIME24)上回ります。さらに、予算強制を使用してs1をスケーリングすることで、テスト時の介入なしにその性能を超えることが可能となりました:AIME24で50%から57%へ。当社のモデル、データ、コードは、https://github.com/simplescaling/s1 でオープンソースで提供されています。