START: ツールを用いた自己学習型推論システム
START: Self-taught Reasoner with Tools
March 6, 2025
著者: Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu
cs.AI
要旨
OpenAI-o1やDeepSeek-R1のような大規模推論モデル(LRM)は、長い連鎖思考(Chain-of-Thought, CoT)を活用することで、複雑な推論タスクにおいて顕著な能力を発揮してきました。しかし、これらのモデルは内部推論プロセスに依存するため、しばしば幻覚や非効率性に悩まされます。本論文では、外部ツールを活用することで推論能力を大幅に向上させる、新しいツール統合型長CoT推論LLMであるSTART(Self-Taught Reasoner with Tools)を紹介します。STARTは、コード実行を通じて複雑な計算、自己チェック、多様な方法の探索、自己デバッグを可能にし、LRMの限界を克服します。STARTの核心的な革新は、自己学習フレームワークにあり、以下の2つの主要な技術で構成されています:1)Hint-infer:推論プロセス中に人工的に設計されたヒント(例:「待って、ここでPythonを使うのは良いアイデアかもしれない」)を挿入することで、LRMが外部ツールを活用する能力を効果的に刺激し、デモンストレーションデータを必要としないことを示します。Hint-inferはまた、シンプルで効果的な逐次テストタイムスケーリング手法としても機能します。2)Hint Rejection Sampling Fine-Tuning(Hint-RFT):Hint-RFTは、Hint-inferとRFTを組み合わせ、Hint-inferによって生成されたツール呼び出しを含む推論軌跡をスコアリング、フィルタリング、修正し、その後LRMをファインチューニングします。このフレームワークを通じて、QwQ-32Bモデルをファインチューニングし、STARTを実現しました。PhDレベルの科学QA(GPQA)、競技レベルの数学ベンチマーク(AMC23、AIME24、AIME25)、および競技レベルのコードベンチマーク(LiveCodeBench)において、STARTはそれぞれ63.6%、95.0%、66.7%、47.1%、47.3%の精度を達成しました。これは、ベースのQwQ-32Bを大幅に上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bおよびプロプライエタリモデルo1-Previewに匹敵する性能を実現しています。
English
Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have
demonstrated remarkable capabilities in complex reasoning tasks through the
utilization of long Chain-of-thought (CoT). However, these models often suffer
from hallucinations and inefficiencies due to their reliance solely on internal
reasoning processes. In this paper, we introduce START (Self-Taught Reasoner
with Tools), a novel tool-integrated long CoT reasoning LLM that significantly
enhances reasoning capabilities by leveraging external tools. Through code
execution, START is capable of performing complex computations, self-checking,
exploring diverse methods, and self-debugging, thereby addressing the
limitations of LRMs. The core innovation of START lies in its self-learning
framework, which comprises two key techniques: 1) Hint-infer: We demonstrate
that inserting artificially designed hints (e.g., ``Wait, maybe using Python
here is a good idea.'') during the inference process of a LRM effectively
stimulates its ability to utilize external tools without the need for any
demonstration data. Hint-infer can also serve as a simple and effective
sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning
(Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and
modifying the reasoning trajectories with tool invocation generated by a LRM
via Hint-infer, followed by fine-tuning the LRM. Through this framework, we
have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA
(GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the
competition-level code benchmark (LiveCodeBench), START achieves accuracy rates
of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly
outperforms the base QwQ-32B and achieves performance comparable to the
state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary
model o1-Preview.Summary
AI-Generated Summary