rStar-Math: Piccoli LLM possono padroneggiare il ragionamento matematico con un pensiero profondo autoevolutorStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep
Thinking
Presentiamo rStar-Math per dimostrare che i modelli linguistici di piccole dimensioni (SLM) possono eguagliare o addirittura superare la capacità di ragionamento matematico di OpenAI o1, senza distillazione da modelli superiori. rStar-Math raggiunge questo obiettivo esercitando un "pensiero profondo" attraverso la Ricerca ad Albero Monte Carlo (MCTS), in cui un SLM di politica matematica esegue una ricerca al momento del test guidata da un modello di ricompensa di processo basato su SLM. rStar-Math introduce tre innovazioni per affrontare le sfide nell'addestramento dei due SLM: (1) un nuovo metodo di sintesi dati CoT con codice aggiuntivo, che esegue estese simulazioni MCTS per generare percorsi di ragionamento verificati passo dopo passo utilizzati per addestrare il SLM di politica; (2) un nuovo metodo di addestramento del modello di ricompensa di processo che evita annotazioni di punteggio a livello di passo naive, producendo un modello di preferenza di processo (PPM) più efficace; (3) una ricetta di auto-evoluzione in cui il SLM di politica e il PPM vengono costruiti da zero ed evoluti iterativamente per migliorare le capacità di ragionamento. Attraverso 4 cicli di auto-evoluzione con milioni di soluzioni sintetizzate per 747k problemi matematici, rStar-Math potenzia il ragionamento matematico degli SLM a livelli di ultima generazione. Nel benchmark MATH, migliora Qwen2.5-Math-7B dal 58,8% al 90,0% e Phi3-mini-3.8B dal 41,4% all'86,4%, superando o1-preview di +4,5% e +0,9%. Nella Olimpiade Matematica USA (AIME), rStar-Math risolve in media il 53,3% (8/15) dei problemi, posizionandosi tra i primi 20% degli studenti di matematica delle scuole superiori più brillanti. Il codice e i dati saranno disponibili su https://github.com/microsoft/rStar.