START: Zelfgeleerde Redeneerder met Hulpmiddelen
START: Self-taught Reasoner with Tools
March 6, 2025
Auteurs: Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu
cs.AI
Samenvatting
Grote redeneermodellen (LRM's) zoals OpenAI-o1 en DeepSeek-R1 hebben opmerkelijke prestaties getoond in complexe redeneertaken door gebruik te maken van lange Chain-of-thought (CoT). Deze modellen kampen echter vaak met hallucinaties en inefficiënties vanwege hun uitsluitende afhankelijkheid van interne redeneerprocessen. In dit artikel introduceren we START (Self-Taught Reasoner with Tools), een nieuw tool-geïntegreerd lang CoT redeneer-LLM dat de redeneercapaciteiten aanzienlijk verbetert door gebruik te maken van externe tools. Door code-uitvoering kan START complexe berekeningen uitvoeren, zelfcontrole toepassen, diverse methoden verkennen en zelfdebuggen, waardoor de beperkingen van LRM's worden aangepakt. De kerninnovatie van START ligt in zijn zelflerende raamwerk, dat bestaat uit twee belangrijke technieken: 1) Hint-infer: We tonen aan dat het invoegen van kunstmatig ontworpen hints (bijv. "Wacht, misschien is het gebruik van Python hier een goed idee.") tijdens het inferentieproces van een LRM effectief het vermogen stimuleert om externe tools te gebruiken zonder de noodzaak van demonstratiedata. Hint-infer kan ook dienen als een eenvoudige en effectieve sequentiële test-time schaalingsmethode; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combineert Hint-infer en RFT door de redeneertrajecten met tool-aanroepen die door een LRM zijn gegenereerd via Hint-infer te scoren, filteren en aan te passen, gevolgd door het fine-tunen van het LRM. Door dit raamwerk hebben we het QwQ-32B-model gefinetuned om START te bereiken. Op PhD-niveau wetenschappelijke QA (GPQA), wedstrijdniveau wiskundige benchmarks (AMC23, AIME24, AIME25) en de wedstrijdniveau code-benchmark (LiveCodeBench) behaalt START nauwkeurigheidspercentages van respectievelijk 63,6%, 95,0%, 66,7%, 47,1% en 47,3%. Het presteert aanzienlijk beter dan het basis QwQ-32B en bereikt prestaties die vergelijkbaar zijn met het state-of-the-art open-weight model R1-Distill-Qwen-32B en het propriëtaire model o1-Preview.
English
Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have
demonstrated remarkable capabilities in complex reasoning tasks through the
utilization of long Chain-of-thought (CoT). However, these models often suffer
from hallucinations and inefficiencies due to their reliance solely on internal
reasoning processes. In this paper, we introduce START (Self-Taught Reasoner
with Tools), a novel tool-integrated long CoT reasoning LLM that significantly
enhances reasoning capabilities by leveraging external tools. Through code
execution, START is capable of performing complex computations, self-checking,
exploring diverse methods, and self-debugging, thereby addressing the
limitations of LRMs. The core innovation of START lies in its self-learning
framework, which comprises two key techniques: 1) Hint-infer: We demonstrate
that inserting artificially designed hints (e.g., ``Wait, maybe using Python
here is a good idea.'') during the inference process of a LRM effectively
stimulates its ability to utilize external tools without the need for any
demonstration data. Hint-infer can also serve as a simple and effective
sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning
(Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and
modifying the reasoning trajectories with tool invocation generated by a LRM
via Hint-infer, followed by fine-tuning the LRM. Through this framework, we
have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA
(GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the
competition-level code benchmark (LiveCodeBench), START achieves accuracy rates
of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly
outperforms the base QwQ-32B and achieves performance comparable to the
state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary
model o1-Preview.Summary
AI-Generated Summary