ChatPaper.aiChatPaper

START: Ragionatore Autodidatta con Strumenti

START: Self-taught Reasoner with Tools

March 6, 2025
Autori: Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu
cs.AI

Abstract

I grandi modelli di ragionamento (LRM) come OpenAI-o1 e DeepSeek-R1 hanno dimostrato capacità notevoli in compiti di ragionamento complesso attraverso l'utilizzo di lunghe catene di pensiero (Chain-of-thought, CoT). Tuttavia, questi modelli spesso soffrono di allucinazioni e inefficienze a causa della loro dipendenza esclusiva da processi di ragionamento interni. In questo articolo, introduciamo START (Self-Taught Reasoner with Tools), un nuovo modello di ragionamento LLM integrato con strumenti esterni che migliora significativamente le capacità di ragionamento sfruttando strumenti esterni. Attraverso l'esecuzione di codice, START è in grado di eseguire calcoli complessi, auto-verificarsi, esplorare metodi diversi e auto-debuggare, affrontando così i limiti dei LRM. L'innovazione principale di START risiede nel suo framework di auto-apprendimento, che comprende due tecniche chiave: 1) Hint-infer: dimostriamo che l'inserimento di suggerimenti progettati artificialmente (ad esempio, "Aspetta, forse usare Python qui è una buona idea") durante il processo di inferenza di un LRM stimola efficacemente la sua capacità di utilizzare strumenti esterni senza la necessità di dati dimostrativi. Hint-infer può anche servire come metodo semplice ed efficace di scalatura sequenziale in fase di test; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combina Hint-infer e RFT valutando, filtrando e modificando le traiettorie di ragionamento con l'invocazione di strumenti generate da un LRM tramite Hint-infer, seguito dal fine-tuning del LRM. Attraverso questo framework, abbiamo effettuato il fine-tuning del modello QwQ-32B per ottenere START. Su QA scientifici di livello PhD (GPQA), benchmark matematici di livello competitivo (AMC23, AIME24, AIME25) e il benchmark di codice di livello competitivo (LiveCodeBench), START raggiunge tassi di accuratezza rispettivamente del 63,6%, 95,0%, 66,7%, 47,1% e 47,3%. Supera significativamente il modello base QwQ-32B e raggiunge prestazioni comparabili al modello open-weight all'avanguardia R1-Distill-Qwen-32B e al modello proprietario o1-Preview.
English
Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have demonstrated remarkable capabilities in complex reasoning tasks through the utilization of long Chain-of-thought (CoT). However, these models often suffer from hallucinations and inefficiencies due to their reliance solely on internal reasoning processes. In this paper, we introduce START (Self-Taught Reasoner with Tools), a novel tool-integrated long CoT reasoning LLM that significantly enhances reasoning capabilities by leveraging external tools. Through code execution, START is capable of performing complex computations, self-checking, exploring diverse methods, and self-debugging, thereby addressing the limitations of LRMs. The core innovation of START lies in its self-learning framework, which comprises two key techniques: 1) Hint-infer: We demonstrate that inserting artificially designed hints (e.g., ``Wait, maybe using Python here is a good idea.'') during the inference process of a LRM effectively stimulates its ability to utilize external tools without the need for any demonstration data. Hint-infer can also serve as a simple and effective sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and modifying the reasoning trajectories with tool invocation generated by a LRM via Hint-infer, followed by fine-tuning the LRM. Through this framework, we have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA (GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the competition-level code benchmark (LiveCodeBench), START achieves accuracy rates of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly outperforms the base QwQ-32B and achieves performance comparable to the state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary model o1-Preview.

Summary

AI-Generated Summary

PDF1116March 7, 2025