START: Ragionatore Autodidatta con StrumentiSTART: Self-taught Reasoner with Tools
I grandi modelli di ragionamento (LRM) come OpenAI-o1 e DeepSeek-R1 hanno dimostrato capacità notevoli in compiti di ragionamento complesso attraverso l'utilizzo di lunghe catene di pensiero (Chain-of-thought, CoT). Tuttavia, questi modelli spesso soffrono di allucinazioni e inefficienze a causa della loro dipendenza esclusiva da processi di ragionamento interni. In questo articolo, introduciamo START (Self-Taught Reasoner with Tools), un nuovo modello di ragionamento LLM integrato con strumenti esterni che migliora significativamente le capacità di ragionamento sfruttando strumenti esterni. Attraverso l'esecuzione di codice, START è in grado di eseguire calcoli complessi, auto-verificarsi, esplorare metodi diversi e auto-debuggare, affrontando così i limiti dei LRM. L'innovazione principale di START risiede nel suo framework di auto-apprendimento, che comprende due tecniche chiave: 1) Hint-infer: dimostriamo che l'inserimento di suggerimenti progettati artificialmente (ad esempio, "Aspetta, forse usare Python qui è una buona idea") durante il processo di inferenza di un LRM stimola efficacemente la sua capacità di utilizzare strumenti esterni senza la necessità di dati dimostrativi. Hint-infer può anche servire come metodo semplice ed efficace di scalatura sequenziale in fase di test; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combina Hint-infer e RFT valutando, filtrando e modificando le traiettorie di ragionamento con l'invocazione di strumenti generate da un LRM tramite Hint-infer, seguito dal fine-tuning del LRM. Attraverso questo framework, abbiamo effettuato il fine-tuning del modello QwQ-32B per ottenere START. Su QA scientifici di livello PhD (GPQA), benchmark matematici di livello competitivo (AMC23, AIME24, AIME25) e il benchmark di codice di livello competitivo (LiveCodeBench), START raggiunge tassi di accuratezza rispettivamente del 63,6%, 95,0%, 66,7%, 47,1% e 47,3%. Supera significativamente il modello base QwQ-32B e raggiunge prestazioni comparabili al modello open-weight all'avanguardia R1-Distill-Qwen-32B e al modello proprietario o1-Preview.