ChatPaper.aiChatPaper

Uno Studio Empirico sull'Elicitazione e il Miglioramento di Modelli di Ragionamento Simili a R1

An Empirical Study on Eliciting and Improving R1-like Reasoning Models

March 6, 2025
Autori: Zhipeng Chen, Yingqian Min, Beichen Zhang, Jie Chen, Jinhao Jiang, Daixuan Cheng, Wayne Xin Zhao, Zheng Liu, Xu Miao, Yang Lu, Lei Fang, Zhongyuan Wang, Ji-Rong Wen
cs.AI

Abstract

In questo rapporto, presentiamo il terzo rapporto tecnico sullo sviluppo di modelli a pensiero lento nell'ambito del progetto STILL. Con il percorso tecnico che si delinea sempre più chiaramente, il ridimensionamento dell'addestramento RL è diventato una tecnica centrale per implementare tali modelli di ragionamento. Sperimentiamo e documentiamo sistematicamente gli effetti di vari fattori che influenzano l'addestramento RL, conducendo esperimenti sia su modelli di base che su modelli fine-tuned. In particolare, dimostriamo che il nostro approccio di addestramento RL migliora costantemente i modelli di base Qwen2.5-32B, aumentando sia la lunghezza delle risposte che l'accuratezza nei test. Inoltre, mostriamo che anche quando un modello come DeepSeek-R1-Distill-Qwen-1.5B ha già raggiunto un livello di prestazioni elevato, può essere ulteriormente affinato attraverso l'addestramento RL, raggiungendo un'accuratezza del 39,33% su AIME 2024. Oltre all'addestramento RL, esploriamo anche l'uso della manipolazione degli strumenti, scoprendo che migliora significativamente le prestazioni di ragionamento dei modelli di ragionamento di grandi dimensioni. Questo approccio raggiunge un'accuratezza notevole dell'86,67% con la ricerca greedy su AIME 2024, sottolineando la sua efficacia nel potenziare le capacità del modello. Rilasciamo le nostre risorse sul sito web del progetto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In this report, we present the third technical report on the development of slow-thinking models as part of the STILL project. As the technical pathway becomes clearer, scaling RL training has become a central technique for implementing such reasoning models. We systematically experiment with and document the effects of various factors influencing RL training, conducting experiments on both base models and fine-tuned models. Specifically, we demonstrate that our RL training approach consistently improves the Qwen2.5-32B base models, enhancing both response length and test accuracy. Furthermore, we show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already achieved a high performance level, it can be further refined through RL training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we also explore the use of tool manipulation, finding that it significantly boosts the reasoning performance of large reasoning models. This approach achieves a remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its effectiveness in enhancing model capabilities. We release our resources at the STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

Summary

AI-Generated Summary

PDF83March 10, 2025