START:具備工具的自學推理器START: Self-taught Reasoner with Tools
大型推理模型(LRMs),如OpenAI-o1和DeepSeek-R1,通过利用长链思维(CoT)在复杂推理任务中展现了卓越的能力。然而,这些模型由于仅依赖内部推理过程,常常出现幻觉和效率低下的问题。本文介绍了START(自教导工具集成长链思维推理大语言模型),这是一种新型的工具集成长链思维推理LLM,通过利用外部工具显著增强了推理能力。通过代码执行,START能够进行复杂计算、自我检查、探索多种方法以及自我调试,从而解决了LRMs的局限性。START的核心创新在于其自学习框架,该框架包含两项关键技术:1)提示推理(Hint-infer):我们证明,在LRM的推理过程中插入人工设计的提示(例如,“等等,也许在这里使用Python是个好主意。”)能有效激发其利用外部工具的能力,而无需任何演示数据。提示推理还可以作为一种简单有效的序列测试时间扩展方法;2)提示拒绝采样微调(Hint-RFT):Hint-RFT结合了Hint-infer和RFT,通过对LRM通过Hint-infer生成的带有工具调用的推理轨迹进行评分、筛选和修改,随后对LRM进行微调。通过这一框架,我们对QwQ-32B模型进行了微调,实现了START。在博士级科学问答(GPQA)、竞赛级数学基准(AMC23、AIME24、AIME25)以及竞赛级代码基准(LiveCodeBench)上,START的准确率分别达到了63.6%、95.0%、66.7%、47.1%和47.3%。它显著超越了基础QwQ-32B,并达到了与最先进的开放权重模型R1-Distill-Qwen-32B和专有模型o1-Preview相当的性能。