Apprendimento per Rinforzo per il Ragionamento nei Piccoli Modelli Linguistici: Cosa Funziona e Cosa No
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't
March 20, 2025
Autori: Quy-Anh Dang, Chris Ngo
cs.AI
Abstract
Migliorare le capacità di ragionamento dei grandi modelli linguistici (LLMs)
si basa tipicamente su risorse computazionali massicce e dataset estesi,
limitando l'accessibilità in contesti con risorse limitate. Il nostro studio
esplora il potenziale dell'apprendimento per rinforzo (RL) per migliorare il ragionamento
in piccoli LLMs, concentrandosi su un modello da 1,5 miliardi di parametri,
DeepSeek-R1-Distill-Qwen-1.5B, sotto vincoli rigorosi: addestramento su 4 GPU NVIDIA
A40 (48 GB di VRAM ciascuna) entro 24 ore. Adattando l'algoritmo di ottimizzazione
delle politiche relative di gruppo (GRPO) e curando un dataset compatto e di alta qualità
per il ragionamento matematico, abbiamo condotto tre esperimenti per esplorare il comportamento
e le prestazioni del modello. I nostri risultati dimostrano rapidi miglioramenti nel ragionamento
- ad esempio, l'accuratezza su AMC23 è passata dal 63% all'80% e AIME24 ha raggiunto il 46,7%,
superando o1-preview - utilizzando solo 7.000 campioni e un costo di addestramento di $42,
rispetto a migliaia di dollari per i modelli di riferimento. Tuttavia, sfide come l'instabilità
nell'ottimizzazione e i vincoli di lunghezza sono emersi con un addestramento prolungato.
Questi risultati evidenziano l'efficacia del fine-tuning basato su RL per piccoli LLMs,
offrendo un'alternativa economica agli approcci su larga scala. Rilasciamo il nostro codice
e i dataset come risorse open-source, fornendo approfondimenti sui compromessi e gettando
le basi per LLM scalabili e capaci di ragionamento in ambienti con risorse limitate.
Tutto è disponibile su https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs)
typically relies on massive computational resources and extensive datasets,
limiting accessibility for resource-constrained settings. Our study
investigates the potential of reinforcement learning (RL) to improve reasoning
in small LLMs, focusing on a 1.5-billion-parameter model,
DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA
A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy
Optimization (GRPO) algorithm and curating a compact, high-quality mathematical
reasoning dataset, we conducted three experiments to explore model behavior and
performance. Our results demonstrate rapid reasoning gains - e.g., AMC23
accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing
o1-preview - using only 7,000 samples and a $42 training cost, compared to
thousands of dollars for baseline models. However, challenges such as
optimization instability and length constraints emerged with prolonged
training. These findings highlight the efficacy of RL-based fine-tuning for
small LLMs, offering a cost-effective alternative to large-scale approaches. We
release our code and datasets as open-source resources, providing insights into
trade-offs and laying a foundation for scalable, reasoning-capable LLMs in
resource-limited environments. All are available at
https://github.com/knoveleng/open-rs.