START: ツールを用いた自己学習型推論システムSTART: Self-taught Reasoner with Tools
OpenAI-o1やDeepSeek-R1のような大規模推論モデル(LRM)は、長い連鎖思考(Chain-of-Thought, CoT)を活用することで、複雑な推論タスクにおいて顕著な能力を発揮してきました。しかし、これらのモデルは内部推論プロセスに依存するため、しばしば幻覚や非効率性に悩まされます。本論文では、外部ツールを活用することで推論能力を大幅に向上させる、新しいツール統合型長CoT推論LLMであるSTART(Self-Taught Reasoner with Tools)を紹介します。STARTは、コード実行を通じて複雑な計算、自己チェック、多様な方法の探索、自己デバッグを可能にし、LRMの限界を克服します。STARTの核心的な革新は、自己学習フレームワークにあり、以下の2つの主要な技術で構成されています:1)Hint-infer:推論プロセス中に人工的に設計されたヒント(例:「待って、ここでPythonを使うのは良いアイデアかもしれない」)を挿入することで、LRMが外部ツールを活用する能力を効果的に刺激し、デモンストレーションデータを必要としないことを示します。Hint-inferはまた、シンプルで効果的な逐次テストタイムスケーリング手法としても機能します。2)Hint Rejection Sampling Fine-Tuning(Hint-RFT):Hint-RFTは、Hint-inferとRFTを組み合わせ、Hint-inferによって生成されたツール呼び出しを含む推論軌跡をスコアリング、フィルタリング、修正し、その後LRMをファインチューニングします。このフレームワークを通じて、QwQ-32Bモデルをファインチューニングし、STARTを実現しました。PhDレベルの科学QA(GPQA)、競技レベルの数学ベンチマーク(AMC23、AIME24、AIME25)、および競技レベルのコードベンチマーク(LiveCodeBench)において、STARTはそれぞれ63.6%、95.0%、66.7%、47.1%、47.3%の精度を達成しました。これは、ベースのQwQ-32Bを大幅に上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bおよびプロプライエタリモデルo1-Previewに匹敵する性能を実現しています。