START: Zelfgeleerde Redeneerder met Hulpmiddelen

Samenvatting

Grote redeneermodellen (LRM's) zoals OpenAI-o1 en DeepSeek-R1 hebben opmerkelijke prestaties getoond in complexe redeneertaken door gebruik te maken van lange Chain-of-thought (CoT). Deze modellen kampen echter vaak met hallucinaties en inefficiënties vanwege hun uitsluitende afhankelijkheid van interne redeneerprocessen. In dit artikel introduceren we START (Self-Taught Reasoner with Tools), een nieuw tool-geïntegreerd lang CoT redeneer-LLM dat de redeneercapaciteiten aanzienlijk verbetert door gebruik te maken van externe tools. Door code-uitvoering kan START complexe berekeningen uitvoeren, zelfcontrole toepassen, diverse methoden verkennen en zelfdebuggen, waardoor de beperkingen van LRM's worden aangepakt. De kerninnovatie van START ligt in zijn zelflerende raamwerk, dat bestaat uit twee belangrijke technieken: 1) Hint-infer: We tonen aan dat het invoegen van kunstmatig ontworpen hints (bijv. "Wacht, misschien is het gebruik van Python hier een goed idee.") tijdens het inferentieproces van een LRM effectief het vermogen stimuleert om externe tools te gebruiken zonder de noodzaak van demonstratiedata. Hint-infer kan ook dienen als een eenvoudige en effectieve sequentiële test-time schaalingsmethode; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combineert Hint-infer en RFT door de redeneertrajecten met tool-aanroepen die door een LRM zijn gegenereerd via Hint-infer te scoren, filteren en aan te passen, gevolgd door het fine-tunen van het LRM. Door dit raamwerk hebben we het QwQ-32B-model gefinetuned om START te bereiken. Op PhD-niveau wetenschappelijke QA (GPQA), wedstrijdniveau wiskundige benchmarks (AMC23, AIME24, AIME25) en de wedstrijdniveau code-benchmark (LiveCodeBench) behaalt START nauwkeurigheidspercentages van respectievelijk 63,6%, 95,0%, 66,7%, 47,1% en 47,3%. Het presteert aanzienlijk beter dan het basis QwQ-32B en bereikt prestaties die vergelijkbaar zijn met het state-of-the-art open-weight model R1-Distill-Qwen-32B en het propriëtaire model o1-Preview.

English

Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have demonstrated remarkable capabilities in complex reasoning tasks through the utilization of long Chain-of-thought (CoT). However, these models often suffer from hallucinations and inefficiencies due to their reliance solely on internal reasoning processes. In this paper, we introduce START (Self-Taught Reasoner with Tools), a novel tool-integrated long CoT reasoning LLM that significantly enhances reasoning capabilities by leveraging external tools. Through code execution, START is capable of performing complex computations, self-checking, exploring diverse methods, and self-debugging, thereby addressing the limitations of LRMs. The core innovation of START lies in its self-learning framework, which comprises two key techniques: 1) Hint-infer: We demonstrate that inserting artificially designed hints (e.g., ``Wait, maybe using Python here is a good idea.'') during the inference process of a LRM effectively stimulates its ability to utilize external tools without the need for any demonstration data. Hint-infer can also serve as a simple and effective sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and modifying the reasoning trajectories with tool invocation generated by a LRM via Hint-infer, followed by fine-tuning the LRM. Through this framework, we have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA (GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the competition-level code benchmark (LiveCodeBench), START achieves accuracy rates of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly outperforms the base QwQ-32B and achieves performance comparable to the state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary model o1-Preview.

START: Zelfgeleerde Redeneerder met Hulpmiddelen

START: Self-taught Reasoner with Tools

Samenvatting

Support