Apprendimento per Rinforzo per il Ragionamento nei Piccoli Modelli Linguistici: Cosa Funziona e Cosa No

Abstract

Migliorare le capacità di ragionamento dei grandi modelli linguistici (LLMs) si basa tipicamente su risorse computazionali massicce e dataset estesi, limitando l'accessibilità in contesti con risorse limitate. Il nostro studio esplora il potenziale dell'apprendimento per rinforzo (RL) per migliorare il ragionamento in piccoli LLMs, concentrandosi su un modello da 1,5 miliardi di parametri, DeepSeek-R1-Distill-Qwen-1.5B, sotto vincoli rigorosi: addestramento su 4 GPU NVIDIA A40 (48 GB di VRAM ciascuna) entro 24 ore. Adattando l'algoritmo di ottimizzazione delle politiche relative di gruppo (GRPO) e curando un dataset compatto e di alta qualità per il ragionamento matematico, abbiamo condotto tre esperimenti per esplorare il comportamento e le prestazioni del modello. I nostri risultati dimostrano rapidi miglioramenti nel ragionamento - ad esempio, l'accuratezza su AMC23 è passata dal 63% all'80% e AIME24 ha raggiunto il 46,7%, superando o1-preview - utilizzando solo 7.000 campioni e un costo di addestramento di $42, rispetto a migliaia di dollari per i modelli di riferimento. Tuttavia, sfide come l'instabilità nell'ottimizzazione e i vincoli di lunghezza sono emersi con un addestramento prolungato. Questi risultati evidenziano l'efficacia del fine-tuning basato su RL per piccoli LLMs, offrendo un'alternativa economica agli approcci su larga scala. Rilasciamo il nostro codice e i dataset come risorse open-source, fornendo approfondimenti sui compromessi e gettando le basi per LLM scalabili e capaci di ragionamento in ambienti con risorse limitate. Tutto è disponibile su https://github.com/knoveleng/open-rs.

English

Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains - e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview - using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.

Apprendimento per Rinforzo per il Ragionamento nei Piccoli Modelli Linguistici: Cosa Funziona e Cosa No

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Abstract

Support