Reinforcement Learning voor Redeneren in Kleine LLM's: Wat Werkt en Wat Niet
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't
March 20, 2025
Auteurs: Quy-Anh Dang, Chris Ngo
cs.AI
Samenvatting
Het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs)
is doorgaans afhankelijk van enorme rekenkracht en uitgebreide datasets,
wat de toegankelijkheid beperkt in omgevingen met beperkte middelen. Onze studie
onderzoekt het potentieel van reinforcement learning (RL) om het redeneren
in kleine LLMs te verbeteren, met focus op een model van 1,5 miljard parameters,
DeepSeek-R1-Distill-Qwen-1.5B, onder strikte beperkingen: training op 4 NVIDIA
A40 GPU's (elk 48 GB VRAM) binnen 24 uur. Door het Group Relative Policy
Optimization (GRPO)-algoritme aan te passen en een compacte, hoogwaardige dataset
voor wiskundig redeneren samen te stellen, hebben we drie experimenten uitgevoerd
om het modelgedrag en de prestaties te onderzoeken. Onze resultaten tonen snelle
verbeteringen in redeneren - bijvoorbeeld AMC23-nauwkeurigheid stijgend van 63%
naar 80% en AIME24 bereikend 46,7%, wat o1-preview overtreft - met slechts 7.000
voorbeelden en een trainingskost van $42, vergeleken met duizenden dollars voor
basismodellen. Er deden zich echter uitdagingen voor, zoals instabiliteit bij
optimalisatie en lengtebeperkingen bij langdurige training. Deze bevindingen
benadrukken de effectiviteit van RL-gebaseerde fine-tuning voor kleine LLMs,
wat een kosteneffectief alternatief biedt voor grootschalige benaderingen. We
maken onze code en datasets beschikbaar als open-source bronnen, wat inzicht
biedt in afwegingen en een basis legt voor schaalbare, redeneervaardige LLMs in
omgevingen met beperkte middelen. Alles is beschikbaar op
https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs)
typically relies on massive computational resources and extensive datasets,
limiting accessibility for resource-constrained settings. Our study
investigates the potential of reinforcement learning (RL) to improve reasoning
in small LLMs, focusing on a 1.5-billion-parameter model,
DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA
A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy
Optimization (GRPO) algorithm and curating a compact, high-quality mathematical
reasoning dataset, we conducted three experiments to explore model behavior and
performance. Our results demonstrate rapid reasoning gains - e.g., AMC23
accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing
o1-preview - using only 7,000 samples and a $42 training cost, compared to
thousands of dollars for baseline models. However, challenges such as
optimization instability and length constraints emerged with prolonged
training. These findings highlight the efficacy of RL-based fine-tuning for
small LLMs, offering a cost-effective alternative to large-scale approaches. We
release our code and datasets as open-source resources, providing insights into
trade-offs and laying a foundation for scalable, reasoning-capable LLMs in
resource-limited environments. All are available at
https://github.com/knoveleng/open-rs.Summary
AI-Generated Summary