START: Zelfgeleerde Redeneerder met HulpmiddelenSTART: Self-taught Reasoner with Tools
Grote redeneermodellen (LRM's) zoals OpenAI-o1 en DeepSeek-R1 hebben opmerkelijke prestaties getoond in complexe redeneertaken door gebruik te maken van lange Chain-of-thought (CoT). Deze modellen kampen echter vaak met hallucinaties en inefficiënties vanwege hun uitsluitende afhankelijkheid van interne redeneerprocessen. In dit artikel introduceren we START (Self-Taught Reasoner with Tools), een nieuw tool-geïntegreerd lang CoT redeneer-LLM dat de redeneercapaciteiten aanzienlijk verbetert door gebruik te maken van externe tools. Door code-uitvoering kan START complexe berekeningen uitvoeren, zelfcontrole toepassen, diverse methoden verkennen en zelfdebuggen, waardoor de beperkingen van LRM's worden aangepakt. De kerninnovatie van START ligt in zijn zelflerende raamwerk, dat bestaat uit twee belangrijke technieken: 1) Hint-infer: We tonen aan dat het invoegen van kunstmatig ontworpen hints (bijv. "Wacht, misschien is het gebruik van Python hier een goed idee.") tijdens het inferentieproces van een LRM effectief het vermogen stimuleert om externe tools te gebruiken zonder de noodzaak van demonstratiedata. Hint-infer kan ook dienen als een eenvoudige en effectieve sequentiële test-time schaalingsmethode; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combineert Hint-infer en RFT door de redeneertrajecten met tool-aanroepen die door een LRM zijn gegenereerd via Hint-infer te scoren, filteren en aan te passen, gevolgd door het fine-tunen van het LRM. Door dit raamwerk hebben we het QwQ-32B-model gefinetuned om START te bereiken. Op PhD-niveau wetenschappelijke QA (GPQA), wedstrijdniveau wiskundige benchmarks (AMC23, AIME24, AIME25) en de wedstrijdniveau code-benchmark (LiveCodeBench) behaalt START nauwkeurigheidspercentages van respectievelijk 63,6%, 95,0%, 66,7%, 47,1% en 47,3%. Het presteert aanzienlijk beter dan het basis QwQ-32B en bereikt prestaties die vergelijkbaar zijn met het state-of-the-art open-weight model R1-Distill-Qwen-32B en het propriëtaire model o1-Preview.